
智東西(公眾號:zhidxcom)
作者|程茜
編輯|漠影
智東西7月(yue)26日報(bao)道,今日,世(shi)界(jie)人工(gong)智能大會開幕,在上海一家AI創(chuang)企的展臺(tai)前,我們目睹了中(zhong)國AI創(chuang)業(ye)公司正向著主流Transformer架(jia)構發起(qi)強勢沖鋒(feng)。
一(yi)臺(tai)機器狗,學習了用戶的(de)(de)(de)(de)打招呼手勢后,不(bu)到30秒就學會并復(fu)刻(ke)了動作,且完全模仿了用戶使用右手打招呼的(de)(de)(de)(de)動作,值(zhi)得注意的(de)(de)(de)(de)是(shi),這一(yi)過(guo)程是(shi)在不(bu)依賴云端、完全離線部署(shu)的(de)(de)(de)(de)情況下實現的(de)(de)(de)(de)。
這正(zheng)是(shi)RockAI展臺正(zheng)在上演的(de)(de)場景(jing)。RockAI 2024年1月(yue)發(fa)布了國(guo)內首個(ge)基于非Transformer架構(gou)的(de)(de)大模型Yan 1.0、2024年9月(yue)發(fa)布Yan 1.3群體智能單元(yuan)大模型,再到如今最新的(de)(de)Yan 2.0 Preview模型,此次機器(qi)狗亮眼(yan)表(biao)現的(de)(de)關鍵之一(yi)就(jiu)是(shi)其(qi)在Yan 2.0 Preview模型中引入了記憶、自主學習(xi)能力。
3B參數規模(mo)的Yan 2.0 Preview,在ARC-C、ARC-E、WinoGrande等部(bu)分榜單上的性能表(biao)現(xian)已經超過參數規模(mo)更大(da)的Llama 3、Qwen 3、Gemma 3。
RockAI CEO劉凡平談道(dao),Transformer架構是(shi)先預訓練再微(wei)調、應用,現(xian)(xian)在(zai)Yan架構模型是(shi)在(zai)物理世界(jie)中學習(xi)、交互,不(bu)需要依賴云(yun)端(duan),打(da)破了(le)現(xian)(xian)在(zai)大模型的學習(xi)模式,Yan 2.0 Preview的出現(xian)(xian)就承載(zai)了(le)模型的自主學習(xi)能力。
一、30秒離線精準復刻動作,讓模型擁有“原生記憶能力”
這次(ci)在WAIC上,RockAI發布的(de)Yan 2.0 Preview同樣是基于非Transformer架構Yan架構,具備文本、視(shi)覺、音頻(pin)多(duo)模態理解,以及(ji)端(duan)到端(duan)音頻(pin)和文生(sheng)成的(de)能力(li)。
話(hua)不(bu)多說,先來看效果。
基于Yan 2.0 Preview的靈(ling)巧手可以在(zai)展臺自主玩推箱(xiang)子(zi)(zi)游戲,可以看到它會根(gen)據(ju)具(ju)體(ti)情況對(dui)下一步(bu)行動(dong)進行分析、評估(gu),最終使得箱(xiang)子(zi)(zi)被(bei)放置到正確的位置。
2024年(nian)1月,Yan 1.0模型發布,擁有相較于同(tong)等參數Transformer架構更高的(de)訓練推理效率、吞吐量及記憶能力(li),更低(di)的(de)機器幻覺表達,同(tong)時支持CPU運行(xing)并100%支持私有化(hua)應用。
8個月后,進(jin)化為多(duo)模(mo)態的(de)群體智能單元大模(mo)型Yan 1.3發布,實現了多(duo)模(mo)態大模(mo)型在樹(shu)莓派的(de)單板計(ji)算機上的(de)部署推理。
再到(dao)如今的(de)Yan 2.0 Preview,RockAI完成(cheng)了模型(xing)基于(yu)訓(xun)推同步(bu)的(de)自主學習能力驗證(zheng)。
不過,目前Yan 2.0 Preview仍是RockAI在(zai)模(mo)型(xing)自(zi)主學習能力探(tan)索(suo)上(shang)的(de)中間階段,通(tong)過可(ke)微(wei)的(de)記憶模(mo)塊來(lai)實現信息的(de)存儲、檢索(suo)和遺忘。在(zai)RockAI CTO楊華看來(lai),讓(rang)模(mo)型(xing)具備自(zi)主學習能力可(ke)能是未來(lai)的(de)技術壁(bi)壘,這也(ye)是其探(tan)索(suo)AGI的(de)重要階段。
目前,行業基于Transformer架(jia)構的大模型雖然(ran)在短期(qi)對話中表現(xian)出(chu)色,但(dan)仍缺乏(fa)真正(zheng)意(yi)義上的“原生(sheng)記憶(yi)能(neng)力”。
行業主(zhu)流做法是通(tong)過RAG(檢索增強(qiang)生成)、長上下文窗口或外(wai)部數(shu)據庫等外(wai)掛機制來(lai)模擬記憶(yi),讓模型(xing)能夠獲(huo)取歷史信息或知識(shi)背景。然而,這(zhe)種方式本質(zhi)上是一次性調用(yong),缺乏對用(yong)戶、任(ren)務或偏好的持續性理解與積累,也難以實(shi)現(xian)類似人類那樣可(ke)生長、可(ke)糾(jiu)偏、具備連續性的長期記憶(yi)。
而原生記憶能(neng)力(li)是大模(mo)(mo)型(xing)邁向通用人(ren)工(gong)智能(neng)的(de)關鍵基(ji)石,其重要性(xing)在(zai)于(yu)不僅能(neng)夠讓模(mo)(mo)型(xing)記住用戶是誰、曾經說過(guo)什么、喜好什么,更能(neng)在(zai)長(chang)期交互(hu)中實現知識更新、個(ge)性(xing)化(hua)演(yan)進與情境理(li)解,在(zai)此基(ji)礎上(shang),模(mo)(mo)型(xing)才能(neng)從工(gong)具進化(hua)為真正的(de)個(ge)人(ren)助手,在(zai)內容創作、教育(yu)輔導、商業決策等用戶的(de)實際(ji)應用場景(jing)中提供連貫、深度(du)智能(neng)支持。
正如前文(wen)提到的,搭(da)載Yan 2.0 Preview的機器狗可以在現場30秒內精準學(xue)習并復刻指定動(dong)(dong)作,且(qie)能持續記(ji)住每(mei)位觀眾的偏好與互動(dong)(dong)風格。其實現的能力不依賴云端(duan)計算(suan),完全在離線(xian)部(bu)署環(huan)境實現,且(qie)擁(yong)有原生(sheng)記(ji)憶、自主(zhu)理解與適應能力。
離(li)線部署(shu)Yan 2.0 preview后(hou),機器狗(gou)擁(yong)有(you)了成為“活(huo)著”的仿(fang)生(sheng)伙伴的能力,當大(da)模型擁(yong)有(you)原(yuan)生(sheng)記憶,終(zhong)端設備(bei)被賦予了智(zhi)能。
這都與RockAI“讓世界(jie)上每一臺設備擁有自(zi)己(ji)的(de)(de)智能”的(de)(de)使命一脈(mo)相承,從非(fei)Transformer架構的(de)(de)模(mo)型開始,進(jin)一步(bu)賦予其多模(mo)態、實時人機交(jiao)互、自(zi)主(zhu)學習(xi)的(de)(de)能力。
二、引入神經網絡記憶單元,PC已落地
自主學習、多(duo)模態理解能力的(de)提升(sheng),對Yan 2.0 Preview的(de)底(di)層架構(gou)創新提出了更高要求。
Yan 2.0 Preview的核(he)心在(zai)于,其通過(guo)可(ke)微的記憶(yi)模(mo)塊來(lai)實現(xian)信息的存儲、檢索和(he)遺忘,前向過(guo)程可(ke)分為記憶(yi)更新與記憶(yi)檢索兩(liang)個階(jie)段。
其中記憶(yi)(yi)更新過程,可以(yi)使模型(xing)通過門控式更新保留長期依(yi)賴,又(you)能基于輸入分布特性靈活(huo)整(zheng)合新知識(shi),記憶(yi)(yi)檢索過程可以(yi)在增(zeng)大模型(xing)記憶(yi)(yi)容量的(de)同時,增(zeng)強其檢索能力。
在自主(zhu)學(xue)習的(de)基礎(chu)上(shang),該模(mo)型還(huan)具備對不同(tong)模(mo)態數據的(de)理(li)解、生成(cheng)能力,其核心組(zu)件包括基于Yan 2.0 Preview架(jia)構的(de)語言模(mo)型、視覺(jue)編碼器(qi)、視頻tokens壓縮模(mo)塊(kuai)、視覺(jue)連接層、音頻離散化模(mo)塊(kuai)和音頻解碼器(qi)。
其中,音頻離散化模塊(kuai)通過將連(lian)續的(de)(de)語音信號量(liang)化至有(you)限的(de)(de)離散值集合,提高音頻樣本的(de)(de)建(jian)模效率,可以做(zuo)到(dao)低(di)比特(te)率實(shi)現統(tong)一建(jian)模語音的(de)(de)語義和聲音信息。
音(yin)(yin)頻模態能力擴(kuo)展方面,Yan架(jia)構多模態模型能夠有效(xiao)地學(xue)習音(yin)(yin)頻序列并建模細節(jie)聲(sheng)學(xue)特(te)征,其采用約(yue)100萬(wan)小(xiao)時(shi)音(yin)(yin)頻數據進行音(yin)(yin)頻模態擴(kuo)充與對齊訓練,800萬(wan)對語音(yin)(yin)問答數據供音(yin)(yin)頻問答任務的有監督微調。
最后(hou)音頻(pin)解碼階段,音頻(pin)解碼器負責將Yan架構多模態模型(xing)生成的離散音頻(pin)Token解碼為最終的音頻(pin)波形,實現高質(zhi)量的端到端語音合(he)成。
可以看出,Yan 2.0 Preview在(zai)多模態能力的各項底層架構(gou)創新上,都在(zai)不斷(duan)突破降低計算資源、提高模型(xing)性能的邊(bian)界。
這些背后都是(shi)RockAI在非Transformer這條道路(lu)上堅(jian)持的(de)(de)結果,與當下端側模型部署的(de)(de)核心(xin)需(xu)求(qiu)相契(qi)合(he)。如(ru)今,RockAI的(de)(de)Yan系列模型已經落地某品(pin)牌PC,并(bing)實現(xian)了集(ji)成大(da)模型能(neng)力的(de)(de)會議助手等多項功(gong)能(neng)。
三、離線智能讓智能重新定義硬件,致力于實現群體智能
走(zou)一條非主(zhu)流的底層創新,從一開始就(jiu)注定十分艱難(nan)。RockAI自2023年(nian)6月成立(li),就(jiu)堅定了要做(zuo)非Transformer架構,
結合技術路線的(de)選(xuan)擇與(yu)對(dui)大(da)模(mo)型產業(ye)發(fa)展趨勢的(de)判斷(duan),在模(mo)型研發(fa)之外(wai),RockAI在去年7月正(zheng)式宣布了(le)自己(ji)的(de)使命,也(ye)(ye)就是“讓世界上每一臺(tai)設備(bei)都擁有(you)自己(ji)的(de)智能”,這也(ye)(ye)正(zheng)不斷(duan)內(nei)化到(dao)這家公司的(de)業(ye)務發(fa)展之中。
一(yi)方(fang)面,其Yan系列模(mo)型(xing)從參數規(gui)模(mo)、性能方(fang)面逐(zhu)漸(jian)契合端側設(she)備(bei)的(de)(de)場(chang)景;另一(yi)方(fang)面,RockAI實(shi)現模(mo)型(xing)在手(shou)機(ji)、電腦、無(wu)人機(ji)、機(ji)器人等端側硬件上(shang)的(de)(de)離線部署,還通過內(nei)嵌(qian)或(huo)外掛的(de)(de)方(fang)式(shi),部署在大(da)疆(jiang)無(wu)人機(ji)、樹莓派單板計(ji)算機(ji)等硬件。
最先發力非Transformer架構(gou)的(de)RockAI,最初(chu)面對了諸(zhu)多行(xing)業質疑以及(ji)技(ji)(ji)術(shu)難(nan)點,如(ru)這套新體(ti)系在現(xian)有體(ti)系上的(de)技(ji)(ji)術(shu)復用(yong)性,以及(ji)從0到1搭建底層架構(gou)、賦(fu)予機器自主學(xue)習能(neng)力等。
我們(men)從RockAI的模(mo)型上看(kan)到(dao)了智能(neng)正(zheng)在(zai)重新(xin)定義硬件,硬件的使(shi)用周期從一(yi)次性交付變(bian)為了擁(yong)有長期記(ji)憶,可以(yi)隨(sui)用戶一(yi)起成長。
傳統硬件的(de)(de)價(jia)值(zhi)在售出瞬間達到頂峰,然(ran)后隨(sui)著磨損(sun)和過(guo)時而不(bu)斷折舊,真(zhen)正(zheng)的(de)(de)智能硬件,其核心價(jia)值(zhi)是動態(tai)的(de)(de),可以通過(guo)算法的(de)(de)迭代和模型的(de)(de)自學習持(chi)續提升。用(yong)戶(hu)購買的(de)(de)不(bu)再(zai)是一(yi)個(ge)功(gong)能固定的(de)(de)產品,而是一(yi)個(ge)能夠與自己共同成長的(de)(de)服務和進(jin)化的(de)(de)平臺,而要(yao)實現(xian)這(zhe)種“持(chi)續生長”的(de)(de)高階(jie)智能形態(tai),則更需要(yao)底層的(de)(de)顛覆性創新來支(zhi)撐。
隨(sui)著Yan系列模型的(de)(de)發(fa)布(bu),以及其與PC等廠商合作的(de)(de)不斷深入,RockAI在(zai)這條(tiao)難而正確之路上的(de)(de)堅持已經(jing)初見成(cheng)效。
這(zhe)背后離不(bu)開其創始團(tuan)隊的(de)前(qian)瞻性洞察(cha),以(yi)及過硬(ying)的(de)技術(shu)積(ji)累。在當行業(ye)還沉(chen)浸在Transformer架(jia)(jia)構帶來的(de)技術(shu)紅利中時(shi),RockAI察(cha)覺到該(gai)架(jia)(jia)構在計算效率與場(chang)景適配性上(shang)的(de)局限,并(bing)果斷入局非(fei)Transformer架(jia)(jia)構探(tan)索。
對于未來的(de)愿景,RockAI堅定“群體智(zhi)能(neng)”的(de)構(gou)(gou)想(xiang)。楊華解釋道,他(ta)們設想(xiang)的(de)不是(shi)單一(yi)智(zhi)能(neng)體的(de)演化,而是(shi)構(gou)(gou)建(jian)一(yi)個(ge)(ge)由(you)多個(ge)(ge)模型和終端組成(cheng)(cheng)的(de)“機(ji)器(qi)社會”,如同(tong)人類社會般實現(xian)群策群力與(yu)高度協作。在這個(ge)(ge)體系中,每一(yi)個(ge)(ge)智(zhi)能(neng)終端不僅具(ju)備環境感知能(neng)力,還能(neng)與(yu)物理世界實時(shi)交互、自主(zhu)學習與(yu)進化,共同(tong)構(gou)(gou)成(cheng)(cheng)一(yi)個(ge)(ge)有(you)機(ji)協同(tong)、持(chi)續成(cheng)(cheng)長的(de)智(zhi)能(neng)群體。
“群體(ti)智(zhi)能(neng)”不僅是技術的(de)躍遷,也是RockAI認為邁向(xiang)通(tong)用人工智(zhi)能(neng)的(de)關(guan)鍵(jian)路徑。Yan 2.0 Preview的(de)發布(bu)與在終端設備(bei)的(de)落地,或許(xu)很快能(neng)讓我(wo)們看到其這一愿景的(de)雛形(xing)。
結語:堅守非Transformer架構之路,讓每臺設備都擁有智能
面對主流Transformer架(jia)構,不盲目(mu)追隨這一浪(lang)潮,而是(shi)(shi)堅持自主創(chuang)新,探索(suo)(suo)更貼近真實智(zhi)能(neng)本質的技術(shu)路線(xian),并以(yi)實際行動探索(suo)(suo)非(fei)Transformer架(jia)構的創(chuang)新可(ke)能(neng),是(shi)(shi)當下AI產業發展中最為可(ke)貴的。
RockAI當下取得的(de)成果固然重(zhong)要,但其基(ji)于對產業痛點的(de)深(shen)刻(ke)洞察,為AI技術多(duo)元發(fa)展注(zhu)入(ru)活力(li),從底層(ceng)邏(luo)輯出(chu)發(fa)解(jie)決實(shi)際問題的(de)舉措,正(zheng)推動AI產業從對技術紅(hong)利的(de)依賴(lai)走向(xiang)真(zhen)正(zheng)的(de)創新(xin)突破。
Yan 2.0 Preview展示的(de)不僅是(shi)一次技術范(fan)式的(de)突破,更是(shi)我們對未來人機(ji)關系的(de)思(si)考:不是(shi)遙不可及的(de)超級(ji)模型,而是(shi)每一個設備都能(neng)思(si)考、協(xie)作和(he)成長的(de)智能(neng)新時(shi)代(dai)。
“讓世界上每一臺設備(bei)擁有自己的(de)智能”是RockAI的(de)使命,這已經在其成(cheng)立初期的(de)技術路(lu)線選(xuan)擇、創新布局(ju)中充分展(zhan)現出來(lai),并且(qie)在當(dang)下取得階(jie)段(duan)性(xing)成(cheng)果(guo)。