
智東西(公眾號:zhidxcom)
作者 |? 徐豫
編輯 |? 漠影
還有(you)不到一周就2025年了,各大社(she)交音娛(yu)平臺相繼自動(dong)彈(dan)出“年度報告”的搜索選項。身處AI元年,AI模型這份年終答卷,自然也少不了。
智(zhi)東西12月25日報(bao)道,智(zhi)源研究院12月19日發布了(le)FlagEval“百模”評測結果,今年國產大模型與海外大模型戰況(kuang)焦灼。
在其閉源(yuan)大模(mo)型(xing)評(ping)測能力總榜中(zhong),字節跳(tiao)(tiao)動(dong)的豆包(bao)通用模(mo)型(xing)pro拿到(dao)主觀評(ping)測最(zui)高分(fen)(fen),OpenAI的o1-mini拿到(dao)客觀評(ping)測最(zui)高分(fen)(fen);多模(mo)態模(mo)型(xing)評(ping)測總榜前(qian)三(san)名依次是OpenAI的GPT-4o、字節跳(tiao)(tiao)動(dong)的豆包(bao)視(shi)覺理(li)解(jie)模(mo)型(xing)、Anthropic的Claude 3.5 Sonnet。
▲大語言模型(xing)評測能(neng)力榜單前(qian)三名(圖片(pian)來源:智源研究(jiu)院)
此次評(ping)測包(bao)含國內外累計100多個開源和商業閉源的語(yu)言、視覺語(yu)言、文生(sheng)圖、文生(sheng)視頻、語(yu)音(yin)語(yu)言大模(mo)型,新增(zeng)了對于(yu)AI模(mo)型任務解決能(neng)力(li)、真實金(jin)融量化交(jiao)易場景應用能(neng)力(li)、辯論能(neng)力(li)的考量標準。
同時(shi),為了盡可能降低(di)數(shu)據集泄露風險,并減少數(shu)據集飽和(he)度問題,本次評測吸納(na)了近期發(fa)布的(de)數(shu)據集、持續動態更新評測數(shu)據、替(ti)換了98%的(de)題目(mu)以及提(ti)升了題目(mu)的(de)難度。
其(qi)(qi)實(shi)去(qu)年6月,智源研究院就上線了大(da)模(mo)型(xing)評測(ce)(ce)平臺FlagEval,到(dao)現在該(gai)平臺已有(you)基(ji)于AI的(de)輔助評測(ce)(ce)模(mo)型(xing)FlagJudge、多(duo)模(mo)態評測(ce)(ce)框架FlagEvalMM和(he)針對(dui)大(da)模(mo)型(xing)新能(neng)力的(de)評測(ce)(ce)集(ji)(ji)。其(qi)(qi)與(yu)北京大(da)學共(gong)建的(de)HalluDial是目(mu)前全球規模(mo)最大(da)的(de)、對(dui)話場景下的(de)幻(huan)覺(jue)評測(ce)(ce)集(ji)(ji),包含超(chao)18000個(ge)輪(lun)次對(dui)話和(he)超(chao)14萬個(ge)回答。
從智源評(ping)測最新(xin)結果可以看出,今年下半(ban)年大(da)模(mo)(mo)型(xing)發(fa)展更側重綜合能力提升與實(shi)際應用;多模(mo)(mo)態模(mo)(mo)型(xing)快速發(fa)展,該領域內涌現了不少新(xin)廠商(shang)與新(xin)AI模(mo)(mo)型(xing);語言(yan)模(mo)(mo)型(xing)的發(fa)展則(ze)相對放緩。
得益于(yu)(yu)多模態能力(li)的(de)(de)提升,AI模型(xing)最(zui)新(xin)K12學(xue)(xue)科測驗綜合得分相較于(yu)(yu)半年前提升了12.86%,但是仍與(yu)北京(jing)海淀學(xue)(xue)生(sheng)平均水平存在差距。不(bu)過,AI模型(xing)普遍存在“文強理弱(ruo)”的(de)(de)偏科情況,在英語和歷史文科試題(ti)的(de)(de)表現上,已(yi)有AI模型(xing)超(chao)越了人類考生(sheng)的(de)(de)平均分。
谷(gu)歌(ge)(ge)Gemini 1.5 Pro、阿里巴巴Qwen-VL-Max、Anthropic Claude 3.5 Sonnet、階躍星辰Step 1V、南洋理(li)工(gong)(gong)大學(xue)(xue)LLaVA-Onevision等(deng)7家AI模型的英語學(xue)(xue)科綜合(he)得分高于人(ren)類(lei)考生;階躍星辰Step 1V、阿里巴巴Qwen-VL和Qwen-VL-Max、谷(gu)歌(ge)(ge)Gemini 1.5 Pro、南洋理(li)工(gong)(gong)大學(xue)(xue)LLaVA-Onevision等(deng)12家AI模型的歷(li)史學(xue)(xue)科綜合(he)得分高于人(ren)類(lei)考生。
▲大(da)模型K12學科測驗歷史學科卷面分數(shu)榜單(dan)前(qian)五名(圖片來源:智(zhi)源研究院(yuan))
一、豆包中文對話能力最強,OpenAI o1系列推理水平斷層領先
基(ji)于智源評(ping)測結(jie)果,今年多款國產(chan)大(da)模型(xing)綜(zong)合能力超過海外知名大(da)模型(xing)。
在閉源大模型主觀評測(ce)中,豆包通用模型pro和百度(du)ERNIE 4.0 Turbo的綜合評分(fen)均領先于OpenAI的o1-preview、o1-mini、GPT-4o;而在開源大模型主觀評測(ce)中,阿里(li)巴巴Qwen2.5的綜合評分(fen)高于Meta Llama 3.3和Llama 3.1。
主(zhu)觀評測更偏(pian)重(zhong)考察大(da)模(mo)(mo)型中文能(neng)(neng)力,而國產大(da)模(mo)(mo)型在中文語(yu)言(yan)能(neng)(neng)力上(shang)具有普遍優勢。
因此,從實際綜(zong)合評分(fen)可以(yi)看出(chu),國產大(da)模(mo)型(xing)占據了閉源大(da)模(mo)型(xing)主觀評測榜單的(de)大(da)半壁江山。其前20名中共有(you)15款國產大(da)模(mo)型(xing),占比75%,包(bao)括豆包(bao)通用模(mo)型(xing)pro、百度(du)ERNIE 4.0 Turbo、阿(a)里巴巴Qwen-Max、智譜(pu)華(hua)章GLM-4-Plus、階(jie)躍星辰Step 2等。
▲大(da)語言模型(xing)評測能力榜單主(zhu)觀評測前五(wu)名(ming)(圖片來源:智源研究院)
不過,如果把大模(mo)型放在客(ke)觀評測池子里比較,國產大模(mo)型的表現仍與海外大模(mo)型有著(zhu)一定差距。
OpenAI的(de)o1-mini獲得(de)客觀評(ping)測的(de)最(zui)高分(fen)(fen)(fen)64.57,同樣屬(shu)于o1系列的(de)o1-preview,以(yi)60.36的(de)綜合評(ping)分(fen)(fen)(fen)位列榜(bang)單第二。該項(xiang)評(ping)測中阿(a)里巴巴的(de)Qwen-Max和豆包通用模(mo)型pro各自的(de)綜合評(ping)分(fen)(fen)(fen)為(wei)57.60和56.49,與o1-mini之間大(da)概(gai)有7分(fen)(fen)(fen)的(de)分(fen)(fen)(fen)差(cha),與o1-preview之間大(da)概(gai)有3分(fen)(fen)(fen)的(de)分(fen)(fen)(fen)差(cha)。
▲大語言模型評(ping)測(ce)(ce)能力榜單客觀評(ping)測(ce)(ce)前五名(ming)(圖片(pian)來源:智源研究院)
結(jie)合各項(xiang)細分(fen)(fen)能力的評分(fen)(fen)來(lai)看,國產大模型更“重文輕理(li)”,主(zhu)要在(zai)推理(li)、數學、代碼等方面落(luo)后于OpenAI的大模型。例如,即便是側重中文語境(jing),OpenAI o1-preview仍拿到主(zhu)觀評測任(ren)務(wu)解(jie)決板塊的最高分(fen)(fen)85.37,與第(di)二名的79.52分(fen)(fen)和第(di)三名的77.41分(fen)(fen)相比領(ling)先優(you)勢較為明顯(xian)。
二、多模態評測,國產大模型各擅勝場
據智源研究院(yuan)調研,今年市(shi)面上頭(tou)部模型(xing)(xing)的多模態能力(li)得(de)到大幅提升,上半(ban)年參評(ping)的模型(xing)(xing)普遍(bian)無法(fa)生成正確的中文(wen)(wen)(wen)文(wen)(wen)(wen)字,但(dan)年末(mo)參評(ping)的頭(tou)部模型(xing)(xing)已經具備中文(wen)(wen)(wen)文(wen)(wen)(wen)字生成能力(li)。
從(cong)此(ci)次多模態模型評測數據(ju)來看,視覺語言模型平均排(pai)名(ming)前(qian)三分(fen)別是OpenAI的(de)GPT-4o、豆(dou)包視覺理解模型和(he)Anthropic的(de)Claude 3.5 Sonnet。這三者中豆(dou)包的(de)通用知識(shi)(shi)、文(wen)字(zi)識(shi)(shi)別等(deng)中文(wen)能力與(yu)其(qi)他兩家拉開了較大差距(ju),若(ruo)單看英文(wen)圖表理解表現則Claude的(de)排(pai)名(ming)最靠前(qian)。
▲視覺語言模型排(pai)行榜前三名(ming)(圖片來(lai)源(yuan):智(zhi)源(yuan)研究院)
面對文(wen)本、圖(tu)片、視(shi)頻(pin)(pin)、語音等多模(mo)態(tai)數據的處理(li)時,豆包(bao)文(wen)生(sheng)圖(tu)模(mo)型、豆包(bao)視(shi)頻(pin)(pin)生(sheng)成模(mo)型“即夢(meng)P2.0 pro”分別在(zai)相應(ying)測試中位(wei)列全(quan)(quan)球第二,騰訊Hunyuan Image文(wen)生(sheng)圖(tu)水(shui)平全(quan)(quan)球第一,快手(shou)可靈(ling)1.5(高品質(zhi)版(ban))文(wen)生(sheng)視(shi)頻(pin)(pin)水(shui)平全(quan)(quan)球第一,阿里巴(ba)巴(ba)Qwen2-Audio語音語言水(shui)平全(quan)(quan)球第一。
▲文生視頻模型排(pai)行榜前三名(左),文生圖(tu)模型排(pai)行榜前三名(右(you))(圖(tu)片來源:智源研究院)
目前(qian),AI文生(sheng)圖的技術整(zheng)體趨于成熟(shu),但AI文生(sheng)視(shi)(shi)頻(pin)領域(yu)仍(reng)有較多挑(tiao)戰。現階段,熱門的AI文生(sheng)視(shi)(shi)頻(pin)模(mo)型有可靈(ling)1.5(高品(pin)質版)、即夢P2.0 pro、愛(ai)詩(shi)科技PixVerse V3、Minimax海螺(luo)AI、Pika同名AI模(mo)型Pika 1.5等。
其(qi)中,位列榜單(dan)第一、二名(ming)的可(ke)靈和即(ji)夢均可(ke)生成(cheng)時長10s的視(shi)頻,所生成(cheng)的視(shi)頻在(zai)圖文(wen)一致性(xing)(xing)上也打成(cheng)平(ping)手,但前(qian)者在(zai)AI視(shi)頻真實(shi)性(xing)(xing)和視(shi)頻質量(liang)略勝一籌,后者則(ze)在(zai)AI視(shi)頻美學(xue)質量(liang)和分辨率上實(shi)現(xian)反(fan)超。
上(shang)(shang)述幾(ji)家多(duo)(duo)模態模型(xing)中,只有阿里巴巴的(de)走(zou)開源路線。對(dui)于多(duo)(duo)模態開源模型(xing)的(de)實際效果,智源研究院方面稱,雖然開源模型(xing)架構趨同,即通常(chang)采用語言塔(ta)和視覺塔(ta)的(de)架構,但具體表現不一。其中較好的(de)開源模型(xing),在(zai)圖文(wen)理(li)解任務上(shang)(shang)正(zheng)在(zai)縮小與(yu)頭部(bu)閉源模型(xing)的(de)能(neng)力差距,而長尾視覺知識與(yu)文(wen)字識別(bie),以及復雜(za)圖文(wen)數(shu)據分(fen)析能(neng)力仍有提升空(kong)間。
三、AI模型更擅長反駁辯題,還可任職金融行業初級崗位
智源研究(jiu)院在AI模(mo)型的年末評測(ce)中(zhong),新設置(zhi)了對其辯(bian)論能力和金融量化交易能力的考核維度。
不到3個(ge)月(yue)前,智源研究院推(tui)出了一個(ge)名(ming)為FlagEval Debate的(de)AI模型辯論(lun)平臺。該(gai)平臺主要從邏輯推(tui)理(li)、觀點理(li)解和語言(yan)表(biao)達等核心能(neng)力(li)維度,深(shen)入評估AI語言(yan)模型的(de)能(neng)力(li)差異。
據最新(xin)評(ping)測結果,一方(fang)面AI大(da)模型普遍缺乏辯(bian)論(lun)框(kuang)架意識(shi),不具備圍繞辯(bian)題(ti)(ti)、以整體邏輯綜(zong)合(he)闡述的能力;另一方(fang)面AI大(da)模型在(zai)辯(bian)論(lun)中仍然存在(zai)“幻覺”問題(ti)(ti),給出(chu)的論(lun)據通常經(jing)不起推(tui)敲。
相比(bi)于“正(zheng)方”,AI大模(mo)(mo)型(xing)似乎更(geng)適(shi)合做辯論(lun)賽的“反(fan)方”。此次評測(ce)結果表(biao)明(ming)AI大模(mo)(mo)型(xing)更(geng)擅長反(fan)駁,各個模(mo)(mo)型(xing)所突出(chu)的辯論(lun)維度(du)趨同。不過(guo),遇到不同的辯題(ti)時AI模(mo)(mo)型(xing)間的表(biao)現差(cha)距會較(jiao)為(wei)顯著。
總體來看,在FlagEval Debate評測中,Anthropic Claude 3.5 Sonnet、零(ling)一萬物Yi-Lighting、OpenAI o1-preview的(de)綜合水平排行前三。
而(er)在金融量(liang)化交(jiao)易(yi)領域,此次評測發現大模型已(yi)具備生成有回撤收益的(de)(de)策略代碼的(de)(de)能(neng)力,能(neng)開發量(liang)化交(jiao)易(yi)典型場景里的(de)(de)代碼,頭部AI模型能(neng)力已(yi)接近(jin)初級量(liang)化交(jiao)易(yi)員的(de)(de)水平。
該榜單前5名依次是(shi)深度求索的(de)DeepSeek-V2.5、OpenAI的(de)GPT-4o、OpenAI的(de)o1-mini、谷歌的(de)Gemini 1.5 Pro和(he)智譜(pu)華章的(de)GLM-4-Plus。此(ci)外,百度、騰訊、字節跳(tiao)動、商湯、阿(a)里巴巴、百川智能和(he)零一(yi)萬物等7家國產(chan)大(da)模型開發商均有產(chan)品上榜。
▲金融(rong)量化(hua)交(jiao)易(yi)評測榜單前五名(ming)(圖片來(lai)源:智(zhi)源研究(jiu)院)
智源研究院主(zhu)要用知識問答、交易(yi)策略的(de)跑(pao)通率和(he)夏普指(zhi)數、指(zhi)標計算(suan)的(de)跑(pao)通率和(he)準確率、計算(suan)性能的(de)跑(pao)通率這6項指(zhi)標,來(lai)比較AI模型(xing)的(de)金融量化交易(yi)能力。
其中,在知識問答方(fang)面,AI模型整(zheng)(zheng)體差(cha)(cha)異較(jiao)小且整(zheng)(zheng)體分數偏(pian)高,大部分得分介于0.97到1之間,最(zui)低(di)分為(wei)Meta Llama 3.1的0.69。然(ran)而,面對實(shi)際代碼生成(cheng)任務時(shi),各(ge)AI模型差(cha)(cha)異較(jiao)大,并(bing)且整(zheng)(zheng)體能力偏(pian)弱。
結語:國產大模型競爭加劇,下半場比拼商用質量
在這(zhe)場“百(bai)家爭鳴(ming)”中,國產大模型開發商們(men)不(bu)僅鞏固了其AI模型的中文能力優勢,還進一(yi)步開發了文生圖、文生視頻、文生語音(yin)等多模態模型潛力。
過去一(yi)年,大模型(xing)領域也迎來(lai)了諸多(duo)新(xin)拐點,Scaling Law相對放緩(huan)、AI模型(xing)的(de)數學(xue)能力(li)從(cong)中學(xue)生水(shui)平(ping)(ping)躍升到博士生水(shui)平(ping)(ping)、OpenAI 12月底剛(gang)發布的(de)推(tui)理模型(xing)o3性能接(jie)近(jin)甚(shen)至超(chao)過了人類水(shui)平(ping)(ping)、背靠AI模型(xing)的(de)AI Agent概念和產品熱度(du)攀升。
下一步,AI模型將從(cong)卷(juan)參數(shu)量(liang)邁(mai)向卷(juan)應用場景(jing),催熟(shu)商業化落地的效率(lv)和效益(yi)。