
智東西(公眾號:zhidxcom)
作者|依婷
編輯|漠影
智東西11月20日報道(dao),LLM基準測試項目LiveBench官網最新(xin)榜單顯示(shi),中(zhong)國(guo)大(da)模型“六小虎”之一(yi)階躍星辰的大(da)語言模型step-2-16k-202411,總評分(fen)位(wei)列全球第(di)五、國(guo)產第(di)一(yi)。同時(shi),在六類別(bie)任務中(zhong),step-2-16k-202411的指令跟(gen)隨(IF Average)評分(fen)排名第(di)一(yi),比(bi)OpenAI的o1-preview-2024-09-12更高。
▲LiveBench榜單總評分前15名
LiveBench項目(mu)由Abacus.AI主導(dao),圖靈獎得主、Meta首席(xi)AI科學家楊立昆(Yann Lecun)參與(yu)其(qi)中,因其(qi)每月更新問題(ti)、評分(fen)體系客觀,被業內稱為“最難糊(hu)弄(nong)的LLMs基準測(ce)試”。
成功挑(tiao)戰LiveBench的step-2-16k-202411,是階躍星辰(chen)自研的萬(wan)億(yi)參數(shu)MoE大(da)(da)語言(yan)模(mo)型(xing)。在設計Step-2 MoE架構(gou)時,階躍星辰(chen)放(fang)棄(qi)upcycle(向(xiang)上(shang)復用)路徑,選擇從頭開始訓練,通過部分專家共享參數(shu)、異構(gou)化專家設計等方(fang)式創(chuang)新MoE架構(gou)設計。今(jin)年3月,Step-2預覽(lan)版(ban)發布(bu),成為國內首(shou)個(ge)由創(chuang)業公(gong)司發布(bu)的萬(wan)億(yi)參數(shu)MoE大(da)(da)語言(yan)模(mo)型(xing)。
目前(qian),階躍星(xing)辰已發布包(bao)括萬億MoE大語言模型Step-2、多(duo)模態理解(jie)大模型Step-1.5V、圖(tu)像(xiang)生成(cheng)模型Step-1X在內的(de)Step系列模型 “全家(jia)桶”,以(yi)及C端(duan)應(ying)用“躍問”和“冒泡鴨(ya)”。
基(ji)準(zhun)測(ce)試(shi)是大模型(xing)的“高考(kao)(kao)”,考(kao)(kao)試(shi)成績在(zai)很大程(cheng)度上影響(xiang)了大模型(xing)的應(ying)用(yong)和商業價(jia)值。如(ru)今基(ji)準(zhun)測(ce)試(shi)五花八門(men),LiveBench的評分結(jie)果為(wei)(wei)什么(me)如(ru)此具有參(can)考(kao)(kao)價(jia)值?行業日(ri)新(xin)月異,在(zai)眾(zhong)多(duo)國產(chan)大模型(xing)中,為(wei)(wei)什么(me)階躍星辰得以闖(chuang)入世界級賽場,和OpenAI、Anthropic同臺競技?通過拆解LiveBench榜(bang)單以及(ji)階躍星辰的大語(yu)言模型(xing)Step-2,我們(men)找到了答案。
一、國產大模型與OpenAI同臺競技
今年6月中旬,LiveBench項(xiang)目正式發布,項(xiang)目團隊在創始博客中給它下(xia)了個定義——“具(ju)有挑戰性、無污染的LLM基準測試(A Challenging, Contamination-Free LLM Benchmark)”,項(xiang)目參與方名單里(li),楊立昆、紐約(yue)大學、英(ying)偉達、南加州大學等在AI領域頗具(ju)話語(yu)權和關注度的主體赫(he)然在列。
▲LiveBench官網(wang)博(bo)客(ke)
除了(le)諸多著名(ming)的(de)參與方,LiveBench更受業(ye)界關注(zhu)的(de)特點(dian)是,在設計時考(kao)慮了(le)測試集(ji)污染問(wen)題,盡可能保(bao)證評分(fen)結果的(de)客觀真實。具體(ti)而言:
1、它們根據最新(xin)發布(bu)的數據集、arXiv論(lun)文、新(xin)聞報道和IMDb電影概述設計問題(ti),每月更新(xin)題(ti)庫,以此來(lai)限制(zhi)潛在(zai)的污染,防止大模型在(zai)回(hui)答(da)時作弊;
2、保(bao)證(zheng)每(mei)個問題(ti)都(dou)有可驗證(zheng)的(de)、客觀真(zhen)實的(de)答案(an)(an)(an),可以對(dui)難題(ti)進行精確、自(zi)動評分,不通過LLM評分,避免落入LLM的(de)判(pan)斷陷阱,如對(dui)自(zi)己答案(an)(an)(an)的(de)偏見以及對(dui)答案(an)(an)(an)的(de)錯(cuo)判(pan);
3、目前包含(han)推理、編(bian)碼(ma)、數學、數據分析、語言理解、指令跟隨等六個類(lei)別、18項任務(wu)(wu),并將(jiang)隨著時間的推移發布更新、更難的任務(wu)(wu)。
簡而(er)言(yan)之,LiveBench每月都(dou)用(yong)全(quan)新題庫考驗各家大模(mo)型,并(bing)在無(wu)人工(gong)、無(wu)大模(mo)型參與評分的情況下(xia)進行更為準確、客(ke)觀(guan)的排(pai)名。
就是(shi)在這樣一(yi)個頗具權威(wei)性(xing)和公平性(xing)的(de)基準(zhun)測試中(zhong),階躍星辰的(de)step-2-16k-202411位(wei)列全球第五,也是(shi)榜單前十中(zhong)唯一(yi)一(yi)個國產大(da)模型(xing)。
LiveBench榜單第一到第四名(ming)分別是o1-preview-2024-09-12、claude-3-5-sonnet-20241022、claude-3-5-sonnet-20240620、o1-mini-2024-09-12,被OpenAI和Anthropic兩家(jia)美國AI獨角獸占據,之后(hou)便(bian)是階躍星辰的(de)step-2-16k-202411;谷(gu)歌的(de)gemini-exp-1114排名(ming)第六位。
從任務類(lei)別來看,step-2-16k-202411在指令跟隨(IF,Instruction Following)方面以86.57的(de)評分(fen)位列第(di)一,排名(ming)第(di)二的(de)是谷(gu)歌的(de)大模型gemini-1.5-flash-002,評分(fen)為84.55,在階躍星(xing)辰之后。
根據(ju)LiveBench介紹,指(zhi)令(ling)跟隨類別(bie)(bie)包(bao)括四(si)項子任務,即在遵循一個或多個指(zhi)令(ling),如字(zi)數限制或在答(da)案中加(jia)入(ru)特定元素的(de)基礎上,根據(ju)《衛報》的(de)最(zui)新(xin)報道,解釋、簡(jian)化、總(zong)結或生(sheng)成故事。step-2-16k-202411在該類別(bie)(bie)的(de)高(gao)得分(fen),展現了其在語言生(sheng)成上對細節有超強(qiang)的(de)控制力,能夠更(geng)好地理解和(he)遵循人類指(zhi)令(ling)。
二、放棄捷徑,Step-2創新MoE架構從頭開始
階躍星辰Step-2的(de)高排名源于團隊對算法架構的(de)創新。
今年3月,Step-2預覽版發布,成為國內首個由(you)創業公司發布的(de)萬億(yi)參數模型(xing);7月世(shi)界(jie)(jie)人工智能大會上,Step-2正式(shi)發布,當時在數理邏輯、編程(cheng)、世(shi)界(jie)(jie)知識、指(zhi)令跟隨等方面體感就全面逼近GPT-4。
具體而(er)言,Step-2具備出(chu)色的(de)理解(jie)能力,能夠從上下文中推斷出(chu)用戶(hu)的(de)需求,精(jing)準捕捉用戶(hu)在(zai)模糊指令(ling)中的(de)真實意圖,提供更準確、個性化的(de)響應;
在知識覆(fu)蓋范(fan)圍和深(shen)(shen)度上,Step-2不僅能夠處理(li)常見領域知識,還能深(shen)(shen)入理(li)解和回(hui)答在特定領域或邊(bian)緣(yuan)分(fen)布(bu)中的復雜問(wen)題;
在(zai)生成高質量、有創(chuang)意的(de)文字內容的(de)同時(shi),Step-2具備出(chu)色的(de)細節控制(zhi)能(neng)力(li),能(neng)夠(gou)根據用戶的(de)指令對(dui)(dui)文本進(jin)行精確地調整和優化。比如在(zai)創(chuang)作古詩(shi)詞時(shi),對(dui)(dui)字數、格律、押韻(yun)、意境都(dou)可以(yi)做到(dao)精準把握(wo)。
研發階(jie)段(duan),階(jie)躍(yue)星辰對算(suan)法架構的創新(xin)成為Step-2的制勝法寶。
目前,訓練(lian)MoE模(mo)型主要(yao)有兩種方式——一是基于已有模(mo)型通過upcycle(向上(shang)復用)開始訓練(lian),二是從頭開始訓練(lian)。前者(zhe)對算力的需求(qiu)低、訓練(lian)效(xiao)率高,但上(shang)限(xian)低,如基于拷貝復制得到的MoE模(mo)型容易造成專家同質化嚴重;后者(zhe)訓練(lian)難度(du)高,但能獲得更高的模(mo)型上(shang)限(xian)。
階躍星(xing)辰選擇了第二條,也是一條更難的路。
在設(she)計(ji)Step-2 MoE架(jia)構時,該公司(si)團隊完全自主研發、從頭開始(shi)訓練模型,通(tong)過(guo)部分專家(jia)共(gong)享參數、異構化專家(jia)設(she)計(ji)等方式創新MoE架(jia)構設(she)計(ji),讓Step-2中的(de)每個“專家(jia)模型”都(dou)得到(dao)充(chong)分訓練,Step-2不(bu)僅(jin)總(zong)參數量達到(dao)了(le)(le)萬億級別,每次訓練或推理所激(ji)活的(de)參數量也超過(guo)了(le)(le)市面上的(de)大部分Dense模型。
相比(bi)于Step-1千億參數(shu)大語言模型,Step-2的綜合能(neng)力提升了近(jin)50%。目前,Step-2已接入(ru)(ru)階躍(yue)星(xing)辰旗下效(xiao)率工具“躍(yue)問”。開(kai)發者可以在階躍(yue)星(xing)辰開(kai)放平臺(tai),通過(guo)API接入(ru)(ru)使用 Step-2。
三、“最低調的學生”跑出高分,國產大模型未來可期
階躍星(xing)辰(chen)成立于2023年4月,但在2024年3月才帶著Step系列通(tong)用大(da)模型(xing)正式面(mian)對(dui)公眾。它就像(xiang)是班級里那個最低調(diao)的(de)學(xue)生,平日里埋頭(tou)苦學(xue),在考試的(de)時候(hou)憑高(gao)分一鳴驚人。
目(mu)前(qian),階躍(yue)星辰已對外發布Step系(xi)列(lie)通(tong)用大模(mo)型矩陣,覆(fu)蓋(gai)從(cong)千億參數到(dao)萬億參數,從(cong)語(yu)言到(dao)多模(mo)態,從(cong)理解到(dao)生成的全面(mian)能(neng)力。
模(mo)型更新迭代的(de)同時,產品應用也(ye)沒(mei)落下。今年(nian)9月,在多模(mo)態大模(mo)型Step-1.5V的(de)支(zhi)持下,躍(yue)問App上線“拍(pai)照問”,不僅能識別圖片中的(de)物體(ti)并翻(fan)譯成(cheng)英文(wen),還(huan)能幫助健身人士飯前算算卡路里。由(you)于該(gai)功能實在火(huo)爆(bao),網絡還(huan)有躍(yue)問10月前20天(tian)投流1500萬的(de)傳言,但后續被辟謠。
目前,在(zai)全球AI賽(sai)場上,國產(chan)大模型仍然屈(qu)指可(ke)數(shu),中(zhong)國AI獨角獸(shou)們還有很多隱憂(you)未(wei)解,階(jie)躍星辰的技(ji)術路徑或許可(ke)以為(wei)初創(chuang)公司們提供一個參考樣本。