
智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 心緣
智東(dong)西(xi)1月25日報道,昨日,巖山科技旗(qi)下(xia)創(chuang)企巖芯(xin)數智(Rock AI)推出國內首(shou)個(ge)非(fei)(fei)Attention機制(zhi)的大(da)模型Yan,也是業內少有的非(fei)(fei)Transformer架(jia)構大(da)模型。
巖芯數智CEO劉凡平(ping)介紹,Yan是(shi)一(yi)個通用大語言模(mo)型,擁有(you)相(xiang)較于同等參數Transformer的7倍訓練效率、5倍推(tui)理吞吐、3倍記憶(yi)能力(li),同時支(zhi)持(chi)CPU無損(sun)運(yun)行(xing)、低幻覺(jue)表(biao)達、100%支(zhi)持(chi)私有(you)化(hua)應(ying)用。
標準的(de)Transformer架構(gou)模型在消費(fei)級顯卡(ka)微調,難以達到大規(gui)模商業化的(de)目(mu)標;訓(xun)練至少花費(fei)數百萬(wan)以上(shang),對企業來說并不經濟劃算(suan)。劉凡平透露,基于(yu)Yan架構(gou),僅需投(tou)入50萬(wan)元的(de)訓(xun)練成本,就(jiu)可以擁有百萬(wan)參數級的(de)大模型。Yan支(zhi)持(chi)100%支(zhi)持(chi)私有化部署,支(zhi)持(chi)CPU服務(wu)器運(yun)(yun)行(xing),能在端側設備上(shang)流暢運(yun)(yun)行(xing)。
智(zhi)東(dong)西與少數媒體對巖芯數智(zhi)CEO劉凡平進行了采訪。巖芯數智(zhi)對標業內的(de)什么(me)大模型?Yan有什么(me)優勢和劣勢?
劉(liu)凡平告(gao)訴智東(dong)西,Yan還沒有(you)真正對標(biao)(biao)誰,今(jin)天大家(jia)看到(dao)對比Transformer的(de)一些數(shu)據是用Llama 2的(de)數(shu)據進行的(de)比較,能(neng)看到(dao)性(xing)能(neng)差異。團隊對標(biao)(biao)的(de)是底(di)層技術架構,而不是某一產品。
優勢(shi)和劣勢(shi)方面,今天介紹的(de)效(xiao)果(guo)是通過大量實驗驗證測試出來的(de),它確實在訓練(lian)效(xiao)率、推理效(xiao)率、記(ji)憶能力、幻覺(jue)表(biao)現了(le)很強的(de)優勢(shi),包括CPU上(shang)運行。團(tuan)隊自己從理論(lun)上(shang)(非應用層面)推導的(de)劣勢(shi),可能在上(shang)百k超長文本上(shang)會有語(yu)義上(shang)的(de)缺陷。
當下,業內同時(shi)出現了Mamba、RWKV等非Transformer架構的(de)大模型。劉凡平說,參考(kao)Mamba與Llama 2對比的(de)數(shu)據圖表,Yan的數據比Mamba要(yao)好。
一、比Mamba數據好,效率7倍于Transformer
Attention機制,簡單來說(shuo),是通過一種(zhong)非線性的(de)矩(ju)陣方式表(biao)達更多(duo)東(dong)西。在標準(zhun)Attention機制下,計算(suan)復雜度(du)較高,已經(jing)成為(wei)大(da)模型領域的(de)一大(da)難題。
巖芯數智技(ji)術(shu)負責人楊華解讀,Yan不采用Attention機(ji)制,也不采用RNN序列,而(er)是(shi)建立一種線性的向量(liang)方式,將計算復雜度(du)大(da)幅降低,做到線性時(shi)間復雜度(du),還(huan)能做到常量(liang)的空間復雜度(du),從(cong)而(er)提高(gao)大(da)模型(xing)的性能和效(xiao)果(guo)。
1、訓練效果:預測準確率提高17%
以機器翻譯為例,對Yan與Transformer架構的表現對比,在(zai)訓練集(ji)和(he)驗證(zheng)集(ji)上(shang),Yan的損(sun)失值(zhi)都要(yao)低于Transformer。Yan的訓練效率是Transformer的7倍(bei),消耗的資源更低。
訓練集上,Yan的預測準確率比Transformer高出17%,驗證集上Yan要高出13%。
2、推理吞吐量:同資源下高于Transformer
在推(tui)理(li)吞吐(tu)量對(dui)比方面,相同資源下,Yan的(de)(de)吞吐(tu)量都(dou)要高于相同情況(kuang)下的(de)(de)Transformer,達到其5倍,能支(zhi)持更(geng)多(duo)用(yong)戶的(de)(de)并發使(shi)用(yong)。
3、推理資源消耗:支持更長序列,降低應用成本
當模型(xing)輸出的Token從(cong)200增加到3000時(shi),Transformer會出現顯存不足,但Yan模型(xing)始終(zhong)顯存穩(wen)定。理論(lun)上可以實現無(wu)限長度的推理,應用成本更低(di)。
4、記憶能力:準確率為Transformer的3倍
以古詩(shi)續(xu)寫為例,對Yan與Transformer的記憶(yi)能(neng)力進行對比。訓練(lian)集上(shang)Yan的準(zhun)確率達到Transformer的3倍,記憶(yi)能(neng)力更強。
從以(yi)下三(san)個例子看到,Transformer沒有完成對訓練數據的(de)記憶,只記住(zhu)了(le)句式和字數;Yan則克服幻覺,依靠(kao)記憶進行(xing)了(le)續寫。
劉凡平說,Yan不是基(ji)于Llama、GPT、PaLM的(de)(de)套殼,不是基(ji)于其他Transformer架(jia)構大模型(xing)的(de)(de)二(er)次預訓練,不是基(ji)于開源模型(xing)的(de)(de)微(wei)調,而是其完全(quan)自主知(zhi)識產權研發(fa)的(de)(de)新一代架(jia)構大模型(xing)。
二、現場演示四大能力,記憶力與邏輯兼顧
目前,Yan1.0推出1.3B、7B和(he)48B三個版本參數規模的模型,并支(zhi)持大于(yu)100B模型的訓練(lian)。
巖芯數智在(zai)現場對Yan1.0大模(mo)型(xing)(xing)進行(xing)了演(yan)示(shi),通過一(yi)臺筆記本電腦,本地(di)內存使用(yong)維持(chi)在(zai)13G之(zhi)內,實現模(mo)型(xing)(xing)運(yun)行(xing)。演(yan)示(shi)的內容涉及機器翻譯、古詩(shi)續(xu)寫、自由對話和(he)醫(yi)學問答四個方面(mian)。
1、機器翻譯,比Transformer更地道
如下(xia)圖所示,當輸入“東方明珠是上海的(de)經典建筑”,Yan1.0給出了準確翻(fan)譯。由于機(ji)器翻(fan)譯是Transformer的(de)根(gen),因此巖芯數智從這一根(gen)技術出發驗證Yan1.0大模型的(de)能力。
通(tong)過(guo)一(yi)(yi)個(ge)翻(fan)譯示例看到,Yan將上海(hai)浦東翻(fan)譯成(cheng)一(yi)(yi)個(ge)地(di)方,但Transformer沒有識別出浦東這一(yi)(yi)地(di)名,以為是一(yi)(yi)個(ge)Pond(池塘)。
2、古詩續寫,提升記憶、降低幻覺
在故事續(xu)寫(xie)能(neng)力(li)方面(mian),Yan1.0現場續(xu)寫(xie)了(le)“青海長(chang)云暗雪山”這句詩,展現了(le)其記(ji)憶能(neng)力(li)。Yan1.0的(de)古(gu)詩續(xu)寫(xie)不依賴(lai)網絡搜索引擎和專家系(xi)統,而是靠自己的(de)架(jia)構(gou)能(neng)力(li)。對于(yu)實際應用(yong)來(lai)說,記(ji)憶能(neng)力(li)可以(yi)幫大模型降(jiang)低幻覺,從而更具有實用(yong)性。
3、自由對話,能作詩能寫文章
在自由對話方面(mian),Yan1.0在現場演示創作了一首詩,描述春天(tian)百(bai)花齊放的場景(jing)。
而后,Yan1.0又(you)被要求描述AI如何(he)影響社會發(fa)展,它(ta)流暢地輸出了200~300字的短文。
4、醫學問答,提供健康助理建議
當被問到“流行性(xing)感冒如(ru)何(he)緩解(jie)?”、“腰間(jian)盤突出如(ru)何(he)緩解(jie)?”、“脂肪肝需要如(ru)何(he)治療?”等問題,Yan1.0都給(gei)出了建議。
三、超1000天三大迭代,Yan2.0將升級全模態
劉凡平說,Yan并不(bu)是(shi)團隊研發的第一代模型(xing),而是(shi)經過了1000多天三(san)代迭代的成果。
Dolphin1.0是標準(zhun)的(de)Transformer架(jia)構,當時團隊(dui)認為通用人(ren)工(gong)智能應該已經有了一個比較好的(de)模型架(jia)構Transformer了,于是就(jiu)基(ji)于Transformer去做了一套模型。
但在深(shen)入研究(jiu)和(he)實踐之后發現缺陷:Transformer架構訓練成(cheng)本太高,成(cheng)本難以(yi)覆蓋客戶(hu)給公(gong)司(si)的付費(fei),這種情況下(xia)一直做(zuo)下(xia)去是做(zuo)一單虧一單。團隊一開始的解法是基于它加深(shen)研究(jiu)。
所以有(you)(you)了(le)Dolphin2.0。2.0出來之后,團(tuan)隊(dui)發現模(mo)型的(de)交互還(huan)是(shi)有(you)(you)很(hen)多問(wen)題,包括(kuo)引(yin)入線性的(de)Attention機制(zhi)也(ye)有(you)(you)很(hen)多問(wen)題。于是(shi)團(tuan)隊(dui)就兩頭走,一方面嘗試改進Attention機制(zhi),另一方面嘗試引(yin)進新的(de)模(mo)型架(jia)構。
通過兩(liang)條路探索,團隊(dui)最(zui)終(zhong)發現還是(shi)Yan架(jia)構(gou)有(you)(you)優勢。但這個(ge)Yan是(shi)最(zui)后走(zou)出來(lai)的,此前(qian)團隊(dui)還嘗試了圖架(jia)構(gou)、樹形架(jia)構(gou)等多種路徑。從圖架(jia)構(gou)最(zui)開始出來(lai)的時(shi)候,只有(you)(you)部(bu)分功能比較好(hao)(hao)用(yong);到后來(lai)樹形記憶網絡(luo)階(jie)段,模(mo)型能克服(fu)幻覺,記憶能力更(geng)好(hao)(hao),但推理能力卻下降(jiang)了,比如回答問題沒有(you)(you)邏輯性。所(suo)以,最(zui)后才慢慢演(yan)化出了Yan架(jia)構(gou)。
面臨算力(li)耗費高(gao)、數(shu)(shu)據需(xu)求大等問題,因(yin)此巖芯數(shu)(shu)智從技術(shu)上放棄了Transformer架(jia)構(gou)和Attention機(ji)制(zhi)。
劉凡平(ping)預告,巖芯數智(zhi)第四代大模型Y2.0已經在路(lu)上(shang),這是(shi)一個(ge)全模態(tai)的大模型架構,目(mu)標是(shi)要(yao)全面(mian)打通感(gan)知(zhi)、認知(zhi)、決策與行動,構建通用人(ren)工智(zhi)能(neng)的智(zhi)能(neng)循環。巖芯數智(zhi)不是(shi)要(yao)復(fu)制一個(ge)Llama,或(huo)者(zhe)做一個(ge)垂直(zhi)大模型,而是(shi)要(yao)做一個(ge)通用人(ren)工智(zhi)能(neng)操作系統。
后續在商(shang)業化方面,巖(yan)芯(xin)數智計(ji)劃上接(jie)云計(ji)算、終(zhong)端(duan)廠(chang)商(shang)等廠(chang)家,下(xia)接(jie)應用開(kai)發類廠(chang)商(shang),促(cu)進其通用人(ren)工智能操(cao)作系統的落(luo)地(di)。
結語:Transformer計算成本高,新模型架構引關注
隨著大模型的爆火,傳統的Transformer架構同時展現出計算復雜度高、成本壓力大等問題,國際上已有Mamba、RWKV等非(fei)Transformer架構(gou)大(da)模型引起關注,國內也誕生(sheng)了(le)Yan這樣的新架構(gou)。
為了(le)研(yan)發Yan架(jia)構,正如劉凡(fan)平(ping)所說,其團(tuan)隊(dui)經歷了(le)眾多架(jia)構的(de)(de)嘗試和迭代(dai),最終取得了(le)記憶(yi)、推理(li)等多項能力提升(sheng)。大模型底(di)層技(ji)術的(de)(de)路線(xian)之爭是一(yi)個長期演(yan)進過程,哪(na)一(yi)條路線(xian)能真正跑贏,還需要(yao)在實踐(jian)和與全球對手的(de)(de)比拼中得到驗(yan)證。