
智東西(公眾號:zhidxcom)
作者 | ?ZeR0
編輯 | ?漠影
智東西6月9日報(bao)道,當生成式AI和大模型(xing)的颶風呼(hu)嘯而來,全(quan)球掀起了一場狂熱(re)的GPT競(jing)賽,大量緊迫的前沿議題隨之接踵而至:
語(yu)言(yan)、視覺、多模(mo)(mo)(mo)態(tai)大(da)模(mo)(mo)(mo)型分別有哪(na)些(xie)(xie)研究突破口?如何顯著提(ti)升大(da)模(mo)(mo)(mo)型的計算(suan)速度、效率和(he)擴展性?怎樣確保大(da)模(mo)(mo)(mo)型始(shi)終安(an)全可控(kong)、符合(he)人類意圖和(he)價值觀?國內產學研界亟待做些(xie)(xie)什么,才能(neng)更好地迎(ying)接大(da)模(mo)(mo)(mo)型時代?
這些問題的答案,正在今日開幕的國內現象級AI內行頂級盛會——2023北京智源大會上(shang)——碰撞(zhuang)出(chu)專業(ye)深(shen)度的火花。
隨著(zhu)AI大(da)模(mo)型爆火,智源大(da)會(hui)因規格之(zhi)高(gao)、嘉賓陣容之(zhi)強大(da)而廣(guang)受矚(zhu)目:這場面向AI精英人群(qun)的(de)專業大(da)會(hui)已(yi)經連續舉辦5年(nian),即日起兩天15場專題(ti)論壇(tan)匯(hui)聚了一(yi)眾AI行業翹(qiao)楚(chu),從多位深度學習先驅(qu)、圖靈(ling)獎(jiang)得(de)主(zhu)與院士,到聲(sheng)名烜(xuan)赫的(de)OpenAI聯合創始人Sam Altman、Midjourney創始人David Holz,以及Google DeepMind、Anthropic、Stability AI、HuggingFace、Cohere等明星(xing)AI團隊和Meta、谷歌、微軟等科技巨頭的(de)代表,都將齊聚一(yi)堂(tang),探討(tao)影響AI未來(lai)的(de)核心議題(ti)。
智源“悟道”大模型項目連創「中國首個+世界最大」大模型紀錄之后,智源研究院在開幕式上重磅宣布:“悟道3.0”邁向全面開源、嶄新階段。
大會期間,智源研究院發布首個支持中英雙語知識、開源商用許可的“悟道·天鷹(Aquila)”語言大模型系列,提供“能力-任務-指標”三維評測框架的“天秤(FlagEval)”大模型評測體系,力求打造大模型時代“新Linux”生態的FlagOpen大模型開源技術體系,以及6項“悟道·視界”視覺大模型研究成果。
智源研究院院長黃鐵軍在與智東西等媒體交流時談道,大模型已成為AI產業發展的主導力量,智源研究院希望未來做更多的支撐性工作,為大模型時代的早日形成貢獻一份獨特力量。?
一、悟道·天鷹(Aquila)+天秤(FlagEval),打造大模型能力與評測標準雙標桿
為了推動大模型在產業落地和技術創新,智源研究院發布了“開源商用許可語言大模型系列+開放評測平臺”兩大重磅成果。
先來看一下“悟道·天鷹”Aquila語言大模型系列。
這是首個具備中英雙語知識、支持商用許可協議、支持國內數據合規要求的開源語言大模型(xing)(xing)。悟(wu)道·天(tian)鷹(Aquila)系(xi)列模型(xing)(xing)包(bao)括(kuo) Aquila基(ji)礎模型(xing)(xing)(7B、33B),AquilaChat對話模型(xing)(xing)(7B、33B)以及(ji) AquilaCode “文本-代(dai)碼”生(sheng)成模型(xing)(xing)。
開源地址://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
現場,智源重點展示了“悟道·天鷹”AquilaChat對話模型的4項技能:對話、寫作、可拓展特殊指令規范,強大的指令分解能力。
首先是對話能力(li),AquilaChat非常(chang)謹(jin)慎地(di)拒絕回答(da)像(xiang)“如何瞞過安檢帶(dai)著(zhu)炸藥上飛機”這(zhe)樣存在安全風險的(de)問題,同時能就乘坐飛機的(de)常(chang)見問題給出(chu)簡明(ming)清晰的(de)答(da)案。
寫高(gao)考作(zuo)文也不在話下。AquilaChat拿今年高(gao)考作(zuo)文全國甲卷(juan)的“時間的仆人”題目練(lian)了練(lian)手(shou),僅用不到(dao)10秒就生成了一篇切題的完整文章(zhang)。
此外,AquilaChat通過定義可(ke)擴展的(de)特(te)殊指令(ling)規范,實現(xian)通過(guo)AquilaChat對其它模型(xing)和(he)工具的(de)調(diao)用,且(qie)易于擴展。例如,調(diao)用智源開源的(de)AltDiffusion多語言文圖(tu)生(sheng)(sheng)成模型(xing),實現(xian)了流暢的(de)文圖(tu)生(sheng)(sheng)成能力:
AquilaChat還擁有強大的(de)指(zhi)令分(fen)解能力,配(pei)合智源InstrucFace多(duo)步可控文生圖(tu)模型,能夠實現對人臉圖(tu)片的(de)多(duo)步可控編(bian)輯。
比如要(yao)求將(jiang)照片(pian)中(zhong)的女人皮膚(fu)變白、眼睛變藍、動漫化,AquilaChat會將(jiang)復雜指令(ling)拆解成多(duo)個步驟,依次完(wan)成。
再比如要(yao)求把圖片里女生的頭發變(bian)成淡黃色、皮膚變(bian)成古銅(tong)色、臉色變(bian)得更(geng)加紅潤(run),AquilaChat也能出色地分解并完成任務。
AquilaCode-7B“文(wen)本-代(dai)碼”生成模型(xing),基(ji)于Aquila-7B強大的基(ji)礎模型(xing)能力,以小數據(ju)集、小參數量,實現高(gao)性能,是(shi)目前支持(chi)中英(ying)雙語的、性能最(zui)好的開源代(dai)碼模型(xing)。
AquilaCode-7B分別在英偉達(da)和國產芯片上完成了代(dai)碼(ma)模型的訓練,并通過對多種架構的代(dai)碼(ma)+模型開(kai)源,推動(dong)芯片創新(xin)與多元化發展。
值得一提的是,悟道·天鷹Aquila語言大模型基座是在中英文高質量語料(有近40%的中文語料)基礎上從零開始訓練的,通過數據質量的控制、深層次數據清洗處理、多種訓練的優化方法,實現在更小的數據集、更短的訓練時間,獲得了比其它開源模型更優的性能。
Aquila基礎模型底座(7B、33B)在(zai)技術上繼承了(le)(le)GPT-3、LLaMA等(deng)模型的(de)架構設(she)計(ji)優點(dian),使用智源(yuan)FlagAI開源(yuan)代(dai)碼框架,替換了(le)(le)一批更高效的(de)底層算子實現、重(zhong)新設(she)計(ji)實現了(le)(le)中英雙語的(de)tokenizer,升級(ji)了(le)(le)BMTrain并行訓練(lian)方法。
結果,Aquila在訓練過程中,實現了比Megtron-LM+ZeRO-2將近8倍的訓練效率;訓練效率也比LLaMA提升了24%。
智源研究院副院長兼總工程師林詠華告訴智東西,一個消費級顯卡就能運行Aquila-7B模型:如果是FP16精度,Aquila-7B模型至少可以在20G顯存上跑起(qi)來;如果是INT8精度,則會進一步減(jian)少顯存使用。
“我們的發布(bu)只是一個起點。”她談道,智源(yuan)(yuan)今天(tian)打造了一整套“大模(mo)(mo)型(xing)進化流水線”,基于此,智源(yuan)(yuan)會(hui)讓大模(mo)(mo)型(xing)在更(geng)多數據(ju)、更(geng)多能力的增加之下,源(yuan)(yuan)源(yuan)(yuan)不斷(duan)地(di)成長。
智(zhi)源研(yan)究院首創(chuang)“可持(chi)續(xu)(xu)(xu)、自(zi)(zi)動(dong)(dong)化(hua)評測輔助模(mo)型訓(xun)練(lian)”的(de)(de)新范式,將大(da)模(mo)型訓(xun)練(lian)與(yu)評測結(jie)合(he),利用階段(duan)性(xing)的(de)(de)自(zi)(zi)動(dong)(dong)化(hua)評測結(jie)果(guo),指導后續(xu)(xu)(xu)訓(xun)練(lian)的(de)(de)方向、選擇更優(you)路徑(jing),大(da)幅提升(sheng)模(mo)型訓(xun)練(lian)的(de)(de)效果(guo),實現了“大(da)模(mo)型進化(hua)流水線”,悟(wu)道 · 天(tian)鷹Aquila語(yu)言大(da)模(mo)型系列后續(xu)(xu)(xu)也將持(chi)續(xu)(xu)(xu)迭代、持(chi)續(xu)(xu)(xu)開源。
同時,智源研究院發布了FlagEval(天秤)大語言模型評測體系及開放平臺。
目前大(da)模型評測存(cun)在諸多難點。相比傳統小模型,大(da)模型規(gui)模大(da)、結構更復雜(za)、具備多種(zhong)能力(li),且步入(ru)內(nei)容生(sheng)成和人類認(ren)知領域。傳統評測方(fang)法已經遠遠無法滿足大(da)模型評測的需求。
因(yin)此,是否有能(neng)力(li)打(da)造一套“自(zi)動(dong)化評(ping)測(ce)+人工主觀評(ping)測(ce)”的(de)大模(mo)(mo)型全面評(ping)價系統(tong),并(bing)實現從(cong)評(ping)測(ce)結果到模(mo)(mo)型能(neng)力(li)分析、再到模(mo)(mo)型能(neng)力(li)提升(sheng)的(de)自(zi)動(dong)閉(bi)環,已是基礎大模(mo)(mo)型創新的(de)重要壁(bi)壘之(zhi)一。
智源推出的天秤(FlagEval)大模型評測體系及開放平臺,旨在建立一站式的科學、公正、開放的基礎模型評測基準、方法及工具集,協助研究人員全方位評估基礎模型及訓練算法的性能,同時探索利用AI方法實現對主觀評測的輔助,大幅提升評測的效率和客觀性。
FlagEval創新地構建了“能力-任務-指標”三維評測框架,細粒度刻畫(hua)基礎模(mo)型的認知能力邊界,并(bing)可視化呈現評測結果。
目前該評測體系已覆蓋語言、多模態兩大領域的大模型評測,推出開源多語言文圖大模型評測工具mCLIP-Eval、開源文圖生成評測工具ImageEval,后續將覆蓋視覺、語音評測場景。
FlagEval開放評測平臺現已開放(//flageval.baai.ac.cn),打造自動化評測與自適應評測機制,并支持英偉達、寒武紀、昆侖芯、昇騰-鵬城云腦等多種芯片評測,以及PyTorch、MindSpore等(deng)多種(zhong)深度學習框架。
開源評(ping)測工具://github.com/FlagOpen/FlagEval
林詠華期待更多業界同(tong)仁參與其中(zhong),通(tong)過更多的學科(ke)交(jiao)叉(cha),持(chi)續豐富大模(mo)型(xing)評測(ce)集。
作為“科技部2030”旗艦項目重要課題,天秤FlagEval評測體系正與北京大學、北京航空航天大學、北京師范大學、北京郵電大學、閩江學院、南開大學、中國電子技術標準化研究院、中國科學院自動化研究所等合作單位共建(按首字母排序),定期發布權威評測榜單。
FlagEval是(shi)FlagOpen飛(fei)智(zhi)大模型技術開源體(ti)系的重要(yao)組成之一(yi)。
其中,FlagAI新增集成(cheng)了(le)悟(wu)道·天鷹(Aquila)語言大模型(xing)系列、18種(zhong)語言多(duo)模態文生圖生成(cheng)模型(xing)AltCLIP-m18、AltDiffusion-m18等(deng)智源(yuan)(yuan)開(kai)源(yuan)(yuan)模型(xing),支持并(bing)行加速技術,并(bing)集成(cheng)了(le)高(gao)效推理(li)技術LoRA和BMinf。
FlagPerf建立了評測(ce)Case的各項(xiang)標準、支持容器內(nei)評測(ce)模式(shi);新增國產芯(xin)片的評測(ce)系(xi)列(lie),包括(kuo)昆侖芯(xin)、天數(shu)智芯(xin)等(deng);評測(ce)系(xi)列(lie)從語(yu)言大模型擴(kuo)展到多(duo)種主流視覺模型。
FlagEval包含多種開(kai)源多模態模型評測工(gong)(gong)具和(he)FlagEval(天秤)大模型評測平臺。FlagData包含數據分析工(gong)(gong)具、數據清洗工(gong)(gong)具、微調數據標注工(gong)(gong)具等。
FlagOpen開放(fang)平(ping)臺(tai)://flagopen.baai.ac.cn
二、“悟道·視界”:6大視覺智能成果,點亮通用視覺曙光
除了發布開源語言大模型及評測體系外,智源研究院還一連發布了“悟道·視界”視覺大模型系列的6項(xiang)先(xian)進(jin)技術成果(guo)。
據黃鐵軍分(fen)享,從(cong)技術(shu)路線而言,通用(yong)視(shi)覺模(mo)型(xing)(xing)與語(yu)言模(mo)型(xing)(xing)的方法論類似(si),但視(shi)覺涌現與語(yu)言涌現的形式有(you)所差別。傳統(tong)視(shi)覺模(mo)型(xing)(xing)屬(shu)于判別式模(mo)型(xing)(xing),通用(yong)視(shi)覺模(mo)型(xing)(xing)則更看重對未知事物的通用(yong)辨別能力和(he)生成(cheng)預(yu)測能力。
“悟道(dao)·視界”由悟道(dao)3.0的視覺(jue)大模(mo)(mo)型(xing)(xing)團隊打造,是(shi)一套具(ju)備通用場景感知和(he)復雜任(ren)務處理(li)能力的智(zhi)能視覺(jue)和(he)多模(mo)(mo)態大模(mo)(mo)型(xing)(xing)系列。6項國際領(ling)先技(ji)術中,前5個是(shi)基礎(chu)模(mo)(mo)型(xing)(xing),最后1個是(shi)應用技(ji)術。
1、Emu:在多模態序列中補全一切的多模態大模型
Emu是一個多(duo)模(mo)(mo)態(tai)(tai)-to-模(mo)(mo)態(tai)(tai)的大模(mo)(mo)型,輸(shu)入輸(shu)出均可為多(duo)模(mo)(mo)態(tai)(tai),可以接(jie)受和處理(li)不同模(mo)(mo)態(tai)(tai)的數據,并輸(shu)出各類的多(duo)模(mo)(mo)態(tai)(tai)數據。
基(ji)于多(duo)模(mo)(mo)(mo)態上下(xia)文(wen)學習(xi)技術路徑,Emu能(neng)從圖文(wen)、交(jiao)(jiao)錯圖文(wen)、交(jiao)(jiao)錯視頻(pin)(pin)文(wen)本(ben)等(deng)(deng)海量多(duo)模(mo)(mo)(mo)態序(xu)列中(zhong)學習(xi)。訓(xun)練完(wan)成(cheng)后,Emu能(neng)在(zai)多(duo)模(mo)(mo)(mo)態序(xu)列的上下(xia)文(wen)中(zhong)補全(quan)一切,也就(jiu)是可通過多(duo)模(mo)(mo)(mo)態序(xu)列做prompting(提(ti)示),對圖像、文(wen)本(ben)和(he)視頻(pin)(pin)等(deng)(deng)多(duo)種模(mo)(mo)(mo)態的數據進行感知(zhi)、推理和(he)生成(cheng)。
相比其他多(duo)(duo)模態模型,Emu能(neng)進行精準圖(tu)(tu)像認知,完成少樣本圖(tu)(tu)文理(li)解,根據圖(tu)(tu)片或者視頻進行問答(da)和多(duo)(duo)輪(lun)對話。它也(ye)具備文圖(tu)(tu)生成、圖(tu)(tu)圖(tu)(tu)生成、多(duo)(duo)模態上下文生成等生成能(neng)力(li)。
2、EVA:最強十億級視覺基礎模型
如何(he)讓通用視(shi)覺(jue)模型兼顧更高效和(he)更簡(jian)單(dan)?抓住語(yu)義學習(xi)和(he)幾何(he)結構學習(xi)這兩個關(guan)鍵點,基本可以(yi)解(jie)決絕大部分的(de)視(shi)覺(jue)任務(wu)。
智源(yuan)的(de)(de)十億(yi)(yi)級視(shi)覺基礎(chu)模(mo)(mo)型(xing)(xing)EVA便將(jiang)最強(qiang)(qiang)語義(yi)學習(CLIP)與(yu)最強(qiang)(qiang)幾何(he)結(jie)構學習(MIM)結(jie)合,再將(jiang)標準的(de)(de)ViT模(mo)(mo)型(xing)(xing)擴大規(gui)模(mo)(mo)至(zhi)10億(yi)(yi)參數進行訓練,一(yi)舉在ImageNet分類(lei)、COCO檢測分割(ge)、Kinetics視(shi)頻分類(lei)等廣泛的(de)(de)視(shi)覺感(gan)知任務(wu)中取(qu)得(de)當時最強(qiang)(qiang)性能(neng)。
論文地址://arxiv.org/abs/2211.07636
代碼地址(zhi)://github.com/baaivision/EVA
3、EVA-CLIP:性能最強開源CLIP模型
EVA-CLIP基(ji)于通用視(shi)覺模型EVA開(kai)發(fa),相關工(gong)作入(ru)選2023 CVPR Highlight論文。 EVA極(ji)大地穩定了(le)巨型CLIP的訓練(lian)和優化過程,僅(jin)需使用FP16混合精度,就能(neng)幫助訓練(lian)得到當(dang)前最強且最大的開(kai)源CLIP模型。
此前多模態預訓練模型CLIP作為零(ling)樣本(ben)學(xue)習(xi)基礎模型,廣受(shou)業界認(ren)可。智源視覺(jue)團隊在今年年初(chu)發(fa)布的(de)(de)EVA-CLIP 5B版本(ben),創造了(le)零(ling)樣本(ben)學(xue)習(xi)性能新高度,超越了(le)此前最(zui)強的(de)(de)Open CLIP模型,在ImageNet1K零(ling)樣本(ben)top1達到最(zui)高的(de)(de)82.0%準確率(lv)。此外,智源去年發(fa)布的(de)(de)EVA-CLIP 1B版本(ben),今年才(cai)被Meta發(fa)布的(de)(de)DINOv2模型追(zhui)平(ping)ImageNet kNN準確率(lv)指標。
論文地(di)址://arxiv.org/abs/2303.15389
代碼地(di)址(zhi)://github.com/baaivision/EVA/tree/master/EVA-CLIP
4、Painter:首創“上下文圖像學習”技術路徑的通用視覺模型
研究者相信,表達圖(tu)(tu)像(xiang)信息最好(hao)的方式就是圖(tu)(tu)像(xiang),圖(tu)(tu)像(xiang)理解(jie)圖(tu)(tu)像(xiang)、圖(tu)(tu)像(xiang)解(jie)釋(shi)圖(tu)(tu)像(xiang)、圖(tu)(tu)像(xiang)輸(shu)出(chu)圖(tu)(tu)像(xiang),可(ke)以避免圖(tu)(tu)像(xiang)-語言(yan)翻譯過程中產生的信息誤(wu)差和成本消耗。
智源將(jiang)NLP中(zhong)的(de)上(shang)下文學(xue)習概念引入視(shi)(shi)(shi)覺(jue)模型(xing)(xing),打(da)造了(le)將(jiang)“以視(shi)(shi)(shi)覺(jue)為中(zhong)心”作為建模核心思想的(de)通(tong)用視(shi)(shi)(shi)覺(jue)模型(xing)(xing)Painter。Painter把圖像作為輸(shu)入和輸(shu)出,從而(er)獲得(de)了(le)上(shang)下文視(shi)(shi)(shi)覺(jue)信息,完成不同的(de)視(shi)(shi)(shi)覺(jue)任(ren)務(wu)。該模型(xing)(xing)目前(qian)可(ke)完成7種(zhong)主(zhu)流視(shi)(shi)(shi)覺(jue)任(ren)務(wu),已在(zai)深度(du)估(gu)計、語義分割等(deng)核心視(shi)(shi)(shi)覺(jue)任(ren)務(wu)中(zhong),相比同類模型(xing)(xing)有11%~25%的(de)性(xing)能提升。
論文地址://arxiv.org/abs/2212.02499
代碼地址(zhi)://github.com/baaivision/Painter
5、視界通用分割模型:一通百通,分割一切
從影(ying)像(xiang)中分(fen)割(ge)出各種各樣的對象(xiang),是視覺(jue)(jue)智(zhi)能的關鍵(jian)里程碑。今年(nian)年(nian)初(chu),智(zhi)源研(yan)發(fa)的首個利用視覺(jue)(jue)提示(shi)(prompt)完(wan)成(cheng)任意(yi)分(fen)割(ge)任務(wu)的“視界通(tong)用分(fen)割(ge)模(mo)型”,與Meta的SAM模(mo)型同時發(fa)布,點(dian)亮了通(tong)用視覺(jue)(jue)GPT曙光(guang)。
“視界通用(yong)分(fen)割模(mo)型”具(ju)有強大(da)的視覺上(shang)下文(wen)推理能(neng)(neng)力:給(gei)出一個或幾個示例(li)圖像和意圖掩碼(視覺提示prompt),模(mo)型就能(neng)(neng)理解用(yong)戶意圖,“有樣(yang)學(xue)樣(yang)”地完成類(lei)似分(fen)割任務。用(yong)戶在畫面上(shang)標(biao)注識別一類(lei)物體,即可批(pi)量化識別分(fen)割同類(lei)物體。此外(wai),該模(mo)型還(huan)具(ju)備強大(da)的通用(yong)能(neng)(neng)力、靈活推理能(neng)(neng)力和自動(dong)視頻分(fen)割與追蹤能(neng)(neng)力。
論文地址://arxiv.org/abs/2304.03284
代碼(ma)地址(zhi)://github.com/baaivision/Painter
Demo地址://huggingface.co/spaces/BAAI/SegGPT
6、vid2vid-zero:首個零樣本視頻編輯方法
現有文本(ben)驅動的(de)AIGC視頻(pin)編輯方法嚴重依賴(lai)于大(da)量“文本(ben)-視頻(pin)”數據上調(diao)整預訓(xun)練好的(de)視頻(pin)擴散模型(xing),需要龐(pang)大(da)的(de)計算資源,帶來了高昂的(de)人工數據標注成本(ben)和計算成本(ben)。
智源研究院提(ti)出的(de)零樣(yang)本視(shi)(shi)頻編輯方法(fa)vid2vid-zero,首次在(zai)無需額外視(shi)(shi)頻訓練的(de)情況下,利用注意(yi)力機制動(dong)態運算的(de)特點(dian),結合現有圖像(xiang)擴散模型,實現可指定(ding)屬性的(de)視(shi)(shi)頻編輯。只需上傳視(shi)(shi)頻,輸(shu)入一串編輯文(wen)本提(ti)示(shi),就可以坐等(deng)AI創(chuang)作出創(chuang)意(yi)視(shi)(shi)頻。
論文鏈接://arxiv.org/pdf/2303.17599.pdf
代碼地址://github.com/baaivision/vid2vid-zero
Demo地址:////huggingface.co/spaces/BAAI/vid2vid-zero
“悟道(dao)·視(shi)界”聚焦(jiao)視(shi)覺(jue)和多(duo)(duo)模態(tai)上下文(wen)學習,創(chuang)新了視(shi)覺(jue)和多(duo)(duo)模態(tai)領域(yu)的(de)Prompt工程,取得了零樣(yang)本學習性能的(de)新突(tu)破。未(wei)來其應用可(ke)(ke)帶(dai)給自(zi)動駕駛、智能機器人等(deng)領域(yu)更(geng)多(duo)(duo)可(ke)(ke)能性。還(huan)有多(duo)(duo)語言AIGC文(wen)圖生成,通用智能體(ti)學習等(deng)多(duo)(duo)模態(tai)領域(yu),也將公布相關代碼(ma)。
三、通向AGI的三大路線:大模型、生命智能、AI4Science
據黃鐵軍分享,在以智力服務為特征的時代,重要的不是模型本身比誰大比誰強,而是訓練大模型的算法和技術本身是否夠先進、訓練成本是否能夠有效降低、模型智能的能力是否可信可控。智(zhi)源正將許(xu)多(duo)產學(xue)研單位的(de)智(zhi)慧匯聚(ju),以開放方式(shi)進行協作(zuo),為大模型技術體系的(de)發展添磚加瓦。
他告訴智東(dong)西,作為(wei)一家非營利機(ji)構(gou),智源(yuan)(yuan)研究院立足科研,會基于自研通用視(shi)覺模型和語(yu)言(yan)模型做一些Demo演(yan)示。目標是以開源(yuan)(yuan)開放的方(fang)式提供技術,促進技術發展與(yu)迭代。
除了大模型技術路線外,智源也在堅持研究生命智能和AI4Science。
黃鐵(tie)軍說,這三條路線相互(hu)作用和(he)影響,對于未來的(de)通用人工智能(AGI)都是(shi)必要(yao)的(de)。今天,大模型方(fang)向展(zhan)現出很強的(de)能力,主(zhu)要(yao)得(de)益于海(hai)量高(gao)質量數(shu)據(ju),用擁有巨大參數(shu)的(de)神(shen)經(jing)網絡表達復雜數(shu)據(ju)背后規律,是(shi)一種(zhong)比(bi)較(jiao)直接的(de)方(fang)式。
大(da)(da)模型(xing)(xing)方向有(you)其優勢,但并沒有(you)解決(jue)掉通用人工智能(neng)的所有(you)問(wen)題。比如(ru)大(da)(da)模型(xing)(xing)智能(neng)的發(fa)生(sheng)(sheng)機理(li)與人類生(sheng)(sheng)物大(da)(da)腦(nao)智能(neng)背(bei)后(hou)的信號機理(li)差(cha)距很大(da)(da),如(ru)果想做到類似于人腦(nao)的智能(neng)涌現,還要探究類腦(nao)方向與具身智能(neng)。
他(ta)談道,既然(ran)大(da)(da)(da)模型已經證明涌現能力(li)行之有效(xiao),這方(fang)面的投入會(hui)加大(da)(da)(da)很(hen)多,速度也會(hui)加快(kuai)(kuai),很(hen)大(da)(da)(da)概率大(da)(da)(da)模型方(fang)向(xiang)上接近(jin)通用人工智能速度會(hui)更快(kuai)(kuai)。隨(sui)著模型規模擴(kuo)大(da)(da)(da),對算力(li)、數據(ju)的要求越來越高,必然(ran)會(hui)帶來成(cheng)本上和實現代(dai)價上的一些需求快(kuai)(kuai)速增(zeng)加。這是次(ci)生問題。
“為實現一個更偉大目標,付出資源成本更高,也是自然的事情。我認為大模型規模上現在遠遠沒有看到天花板。”黃鐵軍說。
結語:群英會聚大模型研討高地,百場精彩討論干貨滿載
算上今(jin)天,智(zhi)源(yuan)大會已經連(lian)續舉辦(ban)了五(wu)(wu)屆。這五(wu)(wu)年來,憑借(jie)匯聚人工(gong)智(zhi)能領域(yu)最(zui)關鍵的(de)人物、最(zui)重要的(de)機構、最(zui)核心的(de)話題與最(zui)專(zhuan)業的(de)觀眾,智(zhi)源(yuan)大會的(de)口(kou)碑(bei)持續發酵(jiao),不(bu)僅是業界全(quan)面關注度最(zui)高的(de)人工(gong)智(zhi)能盛會之一,也(ye)早已成為北京(jing)加快建設人工(gong)智(zhi)能創新策(ce)源(yuan)地(di)的(de)一張名(ming)片。
智(zhi)源大會(hui)的主辦方智(zhi)源研究(jiu)院(yuan),是中國最(zui)早進行(xing)大模(mo)(mo)型研究(jiu)的科(ke)研機構,從(cong)率(lv)(lv)(lv)先(xian)(xian)開啟大模(mo)(mo)型立項(xiang)探索,率(lv)(lv)(lv)先(xian)(xian)組建(jian)大模(mo)(mo)型研究(jiu)團隊,率(lv)(lv)(lv)先(xian)(xian)預(yu)見“AI大模(mo)(mo)型時代到來”,率(lv)(lv)(lv)先(xian)(xian)發布連創“中國首個+世(shi)界最(zui)大”記錄的“悟道”大模(mo)(mo)型項(xiang)目,到今天,智(zhi)源研究(jiu)院(yuan)依然(ran)走著最(zui)前(qian)沿,率(lv)(lv)(lv)先(xian)(xian)倡導大模(mo)(mo)型開源開放,并(bing)帶頭建(jian)設大模(mo)(mo)型測(ce)評旗艦(jian)項(xiang)目,為(wei)大模(mo)(mo)型行(xing)業發展(zhan)與生態擴張注入源源不斷的動(dong)能(neng)。
大模(mo)型引(yin)爆人(ren)工智(zhi)能概(gai)念(nian),離(li)不開算法的(de)進步。本屆智(zhi)源大會邀(yao)請(qing)了過去一年領域突破的(de)重(zhong)(zhong)要(yao)工作(zuo)完成(cheng)者,包(bao)括GPT-4/ChatGPT、PaLM-E、OPT、LLaMA、Codex、Whisper、Sparrow、NLLB、T5、Flan-T5、LAION-5B、RoBERTa等重(zhong)(zhong)要(yao)工作(zuo)作(zuo)者出席,親身(shen)講解研(yan)究(jiu)成(cheng)果。
滿(man)(man)滿(man)(man)兩天將覆蓋(gai)百場精彩討論(lun),包(bao)括明天,在星光熠熠的AI安(an)全與對(dui)齊論(lun)壇期間,智(zhi)源研究院(yuan)(yuan)理事長張宏(hong)江與OpenAI聯合(he)創(chuang)始人兼(jian)CEO Sam Altman,加(jia)州(zhou)伯克利(li)分校教授(shou)與圖(tu)靈獎(jiang)得主、中(zhong)國科學院(yuan)(yuan)院(yuan)(yuan)士姚期智(zhi),將分別展開對(dui)談交(jiao)鋒。圖(tu)靈獎(jiang)得主、“深度學習之父”Geoffrey Hinton也將發表重(zhong)磅主題演講,非常(chang)令人期待(dai)。