智東西(公眾號:zhidxcom
作者?|?香草
編輯?|?李水青

智東西4月11日報道,昨日,“歐洲版OpenAI”Mistral AI又一次悄然秀肌肉,甩出全新MoE(專家混合)大模型Mixtral 8x22B磁力鏈接,模型參數規模高達1760億,僅次于馬斯(si)克的Grok-1,成(cheng)為市面(mian)上參數(shu)規模第二大的開源(yuan)模型。

法國版OpenAI殺瘋了!1760億參數MoE登開源榜首,3張A100顯卡可跑,楊立昆轉發“逆天”評論

▲Mistral AI發(fa)布(bu)Mixtral 8x22B

Mixtral 8x22B由(you)8個(ge)(ge)專(zhuan)家模型構(gou)成,每個(ge)(ge)模型的參數(shu)規(gui)模220億,模型文(wen)件大小約為(wei)262GB。測(ce)評(ping)成績方面,Mixtral 8x22B在MMLU(大規(gui)模多(duo)任務語言理(li)解)登頂開源模型榜首,Hellaswag、TruthfulQA、GSM8K等(deng)多(duo)項(xiang)測(ce)評(ping)成績超越Llama 2 70B、GPT-3.5以(yi)及Claude 3 Sonnet。

這(zhe)是(shi)近日繼OpenAI的(de)視覺版GPT-4 Turbo和谷歌的(de)Gemini 1.5 Pro全面更新(xin)后,大模型廠商們發布的(de)第(di)三(san)個重要型號(hao)。此外,Meta還暗示將在下(xia)個月發布Llama 3。

一、問鼎MMLU開源榜首,3張A100顯卡可跑

Mixtral 8x22B包含8個專家模型,每個專家模型的(de)(de)參數(shu)規模從上一代(dai)的(de)(de)70億飆(biao)升至220億,序列長度為65536。

在放出磁力鏈接后(hou)不久,Mixtral 8x22B便上架了開源社區(qu)Hugging Face,模型(xing)文(wen)件大小約為262GB,用(yong)戶可以進一步(bu)訓練和部(bu)署。

性能方面(mian),其在MMLU測(ce)評榜(bang)登頂開源(yuan)模型(xing)榜(bang)首,多(duo)項(xiang)測(ce)評成績超(chao)越Llama 2 70B、GPT-3.5以及Claude 3 Sonnet。

法國版OpenAI殺瘋了!1760億參數MoE登開源榜首,3張A100顯卡可跑,楊立昆轉發“逆天”評論

▲Mixtral 8x22B測評成績

雖然發(fa)布方式低調,但Mixtral 8x22B再一次引爆了開源社區。AI搜索平臺Perplexity Labs和(he)開源平臺Together AI都迅速(su)提供了該(gai)模型的支持。

AI科學家賈揚清稱,通過合理的量化,Mixtral 8x22B可在4個A100/H100顯卡上運行,嚴格來說,其實3張A100顯卡就夠了

法國版OpenAI殺瘋了!1760億參數MoE登開源榜首,3張A100顯卡可跑,楊立昆轉發“逆天”評論

▲賈揚清稱3張A100顯卡可以跑Mixtral 8x22B

蘋(pin)果機(ji)器(qi)學習(xi)研究員Awni Hannun稱,Mixtral 8x22B模(mo)(mo)型在蘋(pin)果機(ji)器(qi)學習(xi)框架MLX上使用M2 Ultra芯片(pian)運(yun)行良好,并發(fa)布了MLX社區中的4位量(liang)化(hua)模(mo)(mo)型。

法國版OpenAI殺瘋了!1760億參數MoE登開源榜首,3張A100顯卡可跑,楊立昆轉發“逆天”評論

▲蘋(pin)果(guo)機器(qi)學(xue)習(xi)框架MLX運行(xing)Mixtral 8x22B

二、楊立昆轉發,法國AI生態如此“逆天”

現如今(jin),法國(guo)巴黎的(de)AI生態已是“Next Level”。出身(shen)巴黎的(de)Meta首席AI科學家(jia)楊(yang)立(li)昆轉發了一篇講述巴黎是如何成為一個主(zhu)要AI中心(xin)的(de)帖文,故事可以從10多年前(qian)說(shuo)起。

法國版OpenAI殺瘋了!1760億參數MoE登開源榜首,3張A100顯卡可跑,楊立昆轉發“逆天”評論

▲楊立昆轉發Damien Henry帖文

2013年,Xavier Niel創辦了計(ji)算機培訓(xun)(xun)學校(xiao)Ecole 42,這所不同尋常的(de)學校(xiao)接收來自不同背景的(de)學生,以點對點學習的(de)方(fang)式(shi)培訓(xun)(xun)編程。

2015年,楊立昆(kun)創辦(ban)了FAIR Paris,也(ye)就是FacebookAI研究院。他被(bei)公認為深度(du)學(xue)習(xi)的(de)三大(da)(da)發明者之一,另外兩(liang)位是加拿大(da)(da)人。

FAIR向(xiang)(xiang)法國(guo)人(ren)才(cai)發出了(le)一個信(xin)號:他(ta)(ta)們不必離開(kai)(kai)法國(guo)就可(ke)以從事深度學習研(yan)究;也向(xiang)(xiang)美國(guo)其他(ta)(ta)科技巨頭發出信(xin)號:在法國(guo)進行(xing)科學研(yan)究是可(ke)行(xing)的。之(zhi)后在2018年,谷歌DeepMind也在巴黎開(kai)(kai)設了(le)一家實驗室。

2016年(nian),第一屆VivaTech舉(ju)辦,它成為歐(ou)盟首屈一指的初(chu)創企業(ye)和投資者盛會(hui),吸引了超過2400家初(chu)創企業(ye)和超過2000名投資者。

同年(nian),開源社區Hugging Face在法(fa)國成立。也(ye)許當(dang)時的他們不(bu)會(hui)知道(dao),其Transformer庫不(bu)久(jiu)之后就會(hui)成為行業標(biao)準。

2017年,Xavier Niel成立了(le)STATION F,這(zhe)是世界(jie)上最大的(de)(de)(de)創業園區。在Roxanne Varza的(de)(de)(de)帶領下,它(ta)成為了(le)法國的(de)(de)(de)科技中心。值得(de)一提的(de)(de)(de)是,Hugging Face是首批加(jia)入STATION F計劃的(de)(de)(de)創企之一,也是該計劃誕生的(de)(de)(de)首個獨角獸。

法國版OpenAI殺瘋了!1760億參數MoE登開源榜首,3張A100顯卡可跑,楊立昆轉發“逆天”評論

▲STATION F創業(ye)園(yuan)區

2018年(nian),楊(yang)立昆獲得圖靈獎,成(cheng)為AI領域(yu)最具影響力的人物之一。

法國版OpenAI殺瘋了!1760億參數MoE登開源榜首,3張A100顯卡可跑,楊立昆轉發“逆天”評論

▲楊立昆

在此(ci)期(qi)間,這(zhe)篇(pian)帖(tie)文的(de)作者Damien Henry在巴黎組建了Google Arts&Culture團隊,專(zhuan)注于(yu)AI和圖像。他(ta)還和其他(ta)兩位(wei)聯創(chuang)共(gong)同創(chuang)建了AI視覺生成工具Clipdrop,后被Stability AI收購。

2019年,巴黎(li)已經在(zai)世界(jie)AI地圖上占據一席之地,但并不像如今(jin)一樣成為主流。

但(dan)在(zai)2020年(nian),疫情席卷了全球(qiu),遠程(cheng)辦(ban)公成為(wei)常態。這讓科(ke)技界開始轉(zhuan)移陣地:世(shi)界上有這么(me)多地方可供(gong)選擇,我為(wei)什么(me)非要在(zai)硅谷(gu)租(zu)房?此外(wai),美國人開始逐漸把(ba)科(ke)技發(fa)(fa)展視為(wei)一(yi)種威(wei)脅,而大(da)多數(shu)科(ke)技沒那么(me)發(fa)(fa)達的國家則恰(qia)(qia)恰(qia)(qia)相反。

2021年(nian),Hugging Face迅速(su)增長,成為(wei)如今我們熟(shu)知(zhi)的最(zui)強開源AI平臺。深度(du)科技在全(quan)球(qiu)范圍(wei)內加速(su)發展,而在巴黎尤為(wei)迅速(su)。

2023年Mistral AI成(cheng)立,并在幾(ji)個月內就飛速成(cheng)長為OpenAI的(de)最大勁敵之一。他們發布(bu)模(mo)型(xing)的(de)方(fang)式低調又“激進”,僅憑(ping)一條沒有任何背景信息(xi)磁力鏈接(jie)就獲得超400萬次瀏覽量,讓昂貴的(de)發布(bu)視頻(pin)變得過時。

同(tong)年,歐洲首(shou)個獨立AI研究實(shi)驗室kyutai成(cheng)立,Scaleway、Rodolphe Saade等(deng)宣布進入計(ji)(ji)算領域,要(yao)為歐洲帶來更多GPU。計(ji)(ji)算機視覺國(guo)際頂(ding)級會(hui)議ICCV也選(xuan)擇在巴黎舉辦,紅衫(shan)資(zi)本等(deng)頂(ding)級投資(zi)機構也越(yue)來越(yue)多地將目光放到法國(guo)AI創(chuang)企。

結語:開源社區再添一員巨匠

隨著Mixtral 8x22B模型(xing)(xing)在開(kai)源(yuan)社區中引起轟動,我們見證了開(kai)源(yuan)大(da)模型(xing)(xing)的(de)(de)(de)迅猛發展和歐(ou)洲AI生(sheng)態的(de)(de)(de)崛起。這一(yi)成就不僅展示了Mistral AI在大(da)模型(xing)(xing)領域的(de)(de)(de)強(qiang)大(da)實(shi)力,也反映了法國乃至整個歐(ou)洲在AI研究和創新方面的(de)(de)(de)深厚潛力。

從Ecole 42、FAIR Paris的(de)(de)(de)成(cheng)立(li),再(zai)到(dao)Hugging Face、STATION F的(de)(de)(de)興起,巴黎(li)已(yi)經成(cheng)為全球AI創新的(de)(de)(de)重要中心。未(wei)來,我們期(qi)待(dai)看(kan)到(dao)更多硅(gui)谷之外的(de)(de)(de)城市在全球AI舞臺上(shang)扮(ban)演重要角色,推動科技前沿創新。