
1、GPT-4模(mo)型架構等關鍵信(xin)息遭泄(xie)露
2、ACL 2023最佳論文(wen)放(fang)榜 西安交大等獲獎
3、李(li)飛飛團隊發(fa)布“大模型(xing)版”機器(qi)人
4、微(wei)軟(ruan)推出(chu)多模(mo)態AI模(mo)型CoDi
5、百(bai)川智(zhi)能推出130億參(can)數(shu)通用大語言模型
6、北(bei)京將發4000萬元(yuan)算力券(quan) 支持大模型企業
7、用(yong)戶吐槽必應(ying)聊天失去(qu)創造力
8、星(xing)火(huo)大模型(xing)帶動訊飛開(kai)發(fa)者增85萬(wan)
9、電(dian)商平臺引入AI后解雇90%員工
10、騰訊絕藝(yi)AI登頂日(ri)本麻(ma)將(jiang)平臺
11、達闥機(ji)器人推出機(ji)器人大模型RobotGPT
12、美國立法(fa)者正在考慮圍繞AI立法(fa)
13、AI優化器助大模(mo)型訓練成本(ben)減(jian)半(ban)
1、GPT-4模型架構等關鍵信息遭泄露
據愛(ai)范兒援(yuan)引SemiAnalysis報道,今天,OpenAI旗下的(de)(de)GPT-4大(da)(da)量(liang)模(mo)型架構、訓練成本、數(shu)據集等大(da)(da)量(liang)信息被泄露。爆料人稱,GPT-4架構的(de)(de)封閉性是(shi)因為他們(men)構建的(de)(de)東西是(shi)可復制的(de)(de),Google、Meta、Anthropic、Inflection、Character、騰訊(xun)、字節跳(tiao)動、百度等在短期內都將擁有與GPT-4一(yi)樣強(qiang)大(da)(da)的(de)(de)模(mo)型。
據(ju)透露,在模型架(jia)構方面,GPT-4的規(gui)模是GPT-3的10倍以(yi)上,作者認為GPT-4在120層中包含(han)了1.8萬億(yi)參數(shu),而GPT-3只有大約(yue)1750億(yi)個(ge)參數(shu)。
OpenAI通過使用(yong)混合專家(jia)(jia)(MoE)模(mo)型來保持成本合理(li)。具(ju)體而言,GPT-4擁(yong)有16個(ge)(ge)專家(jia)(jia)模(mo)型,每(mei)個(ge)(ge)專家(jia)(jia)的MLP參數(shu)約為(wei)1110億。其中,有兩個(ge)(ge)專家(jia)(jia)模(mo)型被用(yong)于前(qian)向(xiang)傳播。此(ci)外,大約550億個(ge)(ge)參數(shu)用(yong)于注意力機制的共享(xiang)。每(mei)次的前(qian)向(xiang)傳播推理(li)(生成一個(ge)(ge)token)僅利用(yong)了(le)約2800億個(ge)(ge)參數(shu)和(he)560TFLOP的計算(suan)。
在數(shu)據集(ji)(ji)構成方面,GPT-4的(de)訓練花費了(le)(le)13萬億的(de)token數(shu)據集(ji)(ji)。這個(ge)數(shu)據集(ji)(ji)因(yin)為沒有(you)高質量的(de)token,還包含了(le)(le)許多個(ge)epoch。
在并(bing)行(xing)策略方面(mian),OpenAI采用(yong)了8路張(zhang)量并(bing)行(xing),因為NVLink最高只支(zhi)持這(zhe)么多。但除此之外,爆料作者(zhe)聽說OpenAI采用(yong)15路并(bing)行(xing)管線。
在(zai)訓練成本(ben)方面,OpenAI訓練GPT-4的(de)FLOPS約為2.15e25,在(zai)大約25000個(ge)A100上訓練了90到(dao)100天,利用率在(zai)32%到(dao)36%之間。
原文鏈接:
//www.semianalysis.com/p/gpt-4-architecture-infrastructure
2、ACL 2023最佳論文放榜 西安交大等獲獎
據ACL?2023官網,今年的(de)AI頂會ACL 2023獲獎論(lun)文(wen)日前公布,共有3篇(pian)最佳論(lun)文(wen)獎、4篇(pian)特(te)別獎和39篇(pian)優秀論(lun)文(wen)。此外,還有區(qu)域(yu)主席(xi)獎,由每個領域(yu)的(de)高級主席(xi)提名。據統計,獲獎論(lun)文(wen)占投稿總(zong)數的(de)1.5%-2.5%。今年獲獎論(lun)文(wen)有不少出自國(guo)內(nei)機(ji)構(gou)及(ji)華(hua)人學者,涉及(ji)西(xi)安(an)交(jiao)通(tong)大(da)學、清華(hua)大(da)學、中科大(da)、智譜AI等。
3篇ACL?2023最(zui)佳論(lun)文的簡介及論(lun)文地址如下:
(1)Do Androids Laugh at Electric Sheep? Humor“Understanding”Benchmarks from The New Yorker Caption Contest
作者:Jack Hessel、Ana Marasovic、Jena D. Hwang、Lillian Lee、Jeff Da、Rowan Zellers、Robert Mankoff and Yejin Choi
論文地址:
//arxiv.org/pdf/2209.06293.pdf
(2)What the DAAM: Interpreting Stable Diffusion Using Cross Attention
作者(zhe):Raphael Tang、Linqing Liu、Akshat Pandey、Zhiying Jiang、Gefei Yang、Karun Kumar、Pontus Stenetorp、Jimmy Lin and Ferhan Ture
論文地址:
//arxiv.org/pdf/2210.04885.pdf
(3)From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models
作(zuo)者:Shangbin Feng、Chan Young Park、Yuhan Liu and Yulia Tsvetkov
論文地址:
//arxiv.org/pdf/2305.08283.pdf
3、李飛飛團隊發布“大模型版”機器人
據(ju)《科創板(ban)日報》報道,AI科學家李飛(fei)飛(fei)帶(dai)領的團(tuan)(tuan)隊日前(qian)發布了(le)具(ju)身智能最新(xin)成(cheng)果:大模型接(jie)(jie)入機(ji)器(qi)人(ren)(ren),把復(fu)雜指令(ling)轉化(hua)成(cheng)具(ju)體行動規劃,人(ren)(ren)類可以(yi)很隨意地用自然語言給機(ji)器(qi)人(ren)(ren)下達指令(ling),機(ji)器(qi)人(ren)(ren)也(ye)無需(xu)額(e)外數(shu)據(ju)和訓練。李飛(fei)飛(fei)團(tuan)(tuan)隊將該系統(tong)命名為VoxPoser,相比傳(chuan)統(tong)方法需(xu)要進行額(e)外的預訓練,這個方法用大模型指導(dao)機(ji)器(qi)人(ren)(ren)如(ru)何與環境進行交(jiao)互(hu),所(suo)以(yi)直接(jie)(jie)解決了(le)機(ji)器(qi)人(ren)(ren)訓練數(shu)據(ju)稀缺的問(wen)題。
4、微軟推出多模態AI模型CoDi
根據微軟官(guan)網,近(jin)日,微軟Azure認知服務研究(jiu)團隊與北卡羅來納大學教(jiao)堂山(shan)分(fen)校合(he)作開發名(ming)為“可組(zu)合(he)擴散(CoDi)”的AI模型,它(ta)能(neng)夠(gou)同時處理和生成任意(yi)模態組(zu)合(he)的內容。
據悉(xi),CoDi采(cai)用了一種新穎的(de)可組合生成(cheng)策略,該(gai)策略涉及通過(guo)在擴散過(guo)程中橋(qiao)接(jie)對齊來構(gou)建共享(xiang)的(de)多模態空間(jian),從而能(neng)夠(gou)同步生成(cheng)相互交織(zhi)的(de)模態,例如將視頻和音頻的(de)時間(jian)對齊。
5、百川智能推出130億參數通用大語言模型
今日,百川智能推出參數量130億(yi)的通用(yong)大語言(yan)模型(xing)Baichuan-13B-Base、對(dui)話(hua)模型(xing)Baichuan-13B-Chat及(ji)其INT4/INT8兩個量化(hua)版本。
這是(shi)(shi)百川智能發布(bu)的(de)第二款(kuan)通(tong)用大(da)語言模型(xing),而在前不久的(de)6月15日,百川智能就已經推出了(le)首款(kuan)70億參(can)數量的(de)中(zhong)英文語言模型(xing)Baichuan-7B。相比此前發布(bu)的(de)Baichuan-7B,Baichuan-13B在1.4萬(wan)億token數據(ju)集上訓(xun)練,超(chao)過LLaMA-13B40%,是(shi)(shi)當(dang)前開源13B尺寸下訓(xun)練數據(ju)量最大(da)的(de)模型(xing)。
Baichuan-13B上(shang)下文(wen)(wen)窗(chuang)口長(chang)度(du)為4096,不(bu)同于Baichuan-7B的(de)RoPE編碼(ma)方式,Baichuan-13B使用了ALiBi位置編碼(ma)技(ji)術,能(neng)夠處理長(chang)上(shang)下文(wen)(wen)窗(chuang)口,甚(shen)至可以推斷超出訓(xun)練(lian)期(qi)間讀取(qu)數據的(de)上(shang)下文(wen)(wen)長(chang)度(du),從而能(neng)夠更(geng)好的(de)捕捉(zhuo)文(wen)(wen)本中上(shang)下文(wen)(wen)的(de)相(xiang)關性,做出更(geng)準確的(de)預(yu)測或生成。
開源地址:
Hugging Face:
預訓練模型:
//huggingface.co/baichuan-inc/Baichuan-13B-Base
對話模型:
//huggingface.co/baichuan-inc/Baichuan-13B-Chat
Github:
//github.com/baichuan-inc/Baichuan-13B
Model Scope:
預訓練模型:
//modelscope.cn/models/baichuan-inc/Baichuan-13B-Base/
對話模型:
//modelscope.cn/models/baichuan-inc/Baichuan-13B-Chat/
6、北京將發4000萬元算力券 支持大模型企業
據(ju)《科(ke)創板(ban)(ban)日報》報道,北京(jing)市經濟和信息化局黨(dang)組(zu)書記(ji)、局長姜廣智在近(jin)日接受《科(ke)創板(ban)(ban)日報》記(ji)者專訪時宣布,北京(jing)將以(yi)場景為(wei)牽引、應用為(wei)導(dao)向,開放更多典型場景,促(cu)進大模型產(chan)業化應用,按季度迭代推(tui)出大模型應用成果,形成一批人工智能與(yu)經濟社會發(fa)展深度融合的(de)典型案例。
此外,該局正籌劃通過算(suan)(suan)力券等形式支持模型(xing)伙(huo)(huo)伴和(he)模型(xing)觀察員,降(jiang)低(di)企業(ye)的訓練成本、提高算(suan)(suan)力對接效率。首期預(yu)計支持不(bu)低(di)于(yu)4000萬元的算(suan)(suan)力券,補(bu)貼(tie)到模型(xing)伙(huo)(huo)伴企業(ye)。
7、用戶吐槽必應聊天失去創造力
Reddit社區(qu)用戶近日發(fa)帖稱微軟對(dui)必應聊天(Bing Chat)的限制(zhi)過于嚴格,使必應的回答變得沒有創造(zao)力(li),只剩下“作為AI語言模型,我不……”等無聊的廢話,因(yin)此他將棄用該(gai)平臺。這個(ge)帖子引發(fa)了眾多網友的共鳴(ming),現(xian)有259條評論。
8、星火大模型帶動訊飛開發者增85萬
7月10日晚間(jian),科(ke)大訊飛(fei)披露(lu)半(ban)年(nian)度業績預告(gao)(gao)。根據(ju)預告(gao)(gao),科(ke)大訊飛(fei)公司(si)上(shang)半(ban)年(nian)預計實現營業收入78億(yi)元,同比(bi)減少2.5%;公司(si)上(shang)半(ban)年(nian)歸母凈利(li)潤預計為(wei)5500~8000萬元,同比(bi)下降71%-80%。截(jie)至2023年(nian)6月30日,訊飛(fei)開放平臺開發者數為(wei)497.4萬(去年(nian)同期343萬),近一年(nian)增(zeng)(zeng)長45%。其(qi)中,訊飛(fei)星火認知(zhi)大模型(xing)發布后,開發者數量在(zai)兩(liang)個月內(nei)增(zeng)(zeng)加了85萬家。
9、電商平臺引入AI后解雇90%員工
印(yin)度電商平臺Dukaan創始人(ren)(ren)兼首席執行(xing)官本周一發推特(te)稱(cheng),在(zai)引入AI聊(liao)天機器人(ren)(ren)來回答客戶問題(ti)后,公(gong)司90%的(de)員(yuan)工已被解雇。他解釋說,在(zai)引入AI助手后,解決問題(ti)時間從之(zhi)前的(de)2小(xiao)時13分鐘縮短到(dao)了3分12秒。他說:“鑒于經濟狀(zhuang)況(kuang),初創公(gong)司優先應該考慮的(de)是‘盈利能(neng)力’。”
10、騰訊絕藝AI登頂日本麻將平臺
騰訊今日宣(xuan)布(bu)其自(zi)研(yan)棋牌類AI“絕(jue)藝(yi)LuckyJ”在國際知名麻(ma)將(jiang)平(ping)臺“天鳳(feng)”上達(da)到(dao)十段水平(ping),刷新了(le)AI在麻(ma)將(jiang)領域的(de)最(zui)好成績(ji)。日本(ben)在線麻(ma)將(jiang)競技平(ping)臺“天鳳(feng)”創建(jian)于2006年(nian),擁有體系化的(de)競技規(gui)則(ze)和專(zhuan)業段位規(gui)則(ze),受到(dao)職業麻(ma)將(jiang)界的(de)廣泛認可。截至目(mu)前,天鳳(feng)平(ping)臺活躍人數(shu)23.8萬,而能達(da)到(dao)十段的(de)僅27人(含AI),不到(dao)萬分之一(yi)。
根據騰訊提供的(de)數(shu)(shu)據,相比其他(ta)麻將AI和人類玩家,“絕(jue)藝LuckyJ”不僅穩定段(duan)(duan)位(wei)更高(gao),從零開始達到十(shi)段(duan)(duan)所(suo)需的(de)對戰局(ju)數(shu)(shu)也明顯更少,僅需要1321局(ju)。這些(xie)數(shu)(shu)據的(de)排(pai)名皆(jie)位(wei)于之前最強的(de)兩個日(ri)本麻將AI之上。
11、達闥機器人推出機器人大模型RobotGPT
據中(zhong)國新聞網報道,在(zai)2023 WAIC期間(jian),云端機(ji)(ji)器人企業達闥(ta)機(ji)(ji)器人宣布推出(chu)業界(jie)首個機(ji)(ji)器人多模態大(da)模型RobotGPT,包含RobotGPT 1.0服務平臺和(he)RobotGPT 1.0一體機(ji)(ji)產品(pin)。
據悉,RobotGPT以(yi)多(duo)模態Transformer為(wei)基(ji)礎,具(ju)(ju)備多(duo)模態(文本、語音、圖片、視覺、運(yun)動(dong)、點云(yun)等)融(rong)合(he)感知(zhi)、認知(zhi)、決策和(he)(he)行(xing)為(wei)生成能(neng)力,并基(ji)于人(ren)工反饋的(de)(de)(de)強化學習完(wan)成并快速智能(neng)進化;RobotGPT與機器人(ren)的(de)(de)(de)具(ju)(ju)身智能(neng)相結合(he),實現機器人(ren)理解人(ren)類語言,自(zi)動(dong)分解、規(gui)劃和(he)(he)執(zhi)行(xing)任務,進行(xing)實時交互,完(wan)成復雜的(de)(de)(de)場景應(ying)用,推動(dong)具(ju)(ju)身智能(neng)的(de)(de)(de)自(zi)主(zhu)進化,讓云(yun)端機器人(ren)成為(wei)通(tong)用人(ren)工智能(neng)的(de)(de)(de)最(zui)佳載體(ti)。此外,RobotGPT還(huan)可以(yi)賦能(neng)數字人(ren)應(ying)用,實現虛實融(rong)合(he)。
12、美國立法者正在考慮圍繞AI立法
據(ju)外媒報(bao)道,美國(guo)參(can)議(yi)院(yuan)將(jiang)(jiang)在(zai)(zai)本周二首次召開關于AI的(de)機(ji)密(mi)簡報(bao)會(hui),政府將(jiang)(jiang)在(zai)(zai)會(hui)議(yi)中向參(can)議(yi)員介紹AI的(de)機(ji)密(mi)情況。據(ju)悉(xi),參(can)議(yi)院(yuan)民主黨領袖Chuck Schumer在(zai)(zai)一封信(xin)中告(gao)訴參(can)議(yi)員:“簡報(bao)將(jiang)(jiang)展示美國(guo)政府如何利用和投(tou)資人工(gong)(gong)智能(neng)來(lai)保護我(wo)(wo)們的(de)國(guo)家安(an)全,并了解我(wo)(wo)們的(de)對手在(zai)(zai)人工(gong)(gong)智能(neng)方面所做的(de)事情……我(wo)(wo)們作為立法者的(de)工(gong)(gong)作是傾聽專家的(de)意(yi)見,我(wo)(wo)們盡可能(neng)多地學習,以便將(jiang)(jiang)這些想法轉化(hua)為立法行動。”
13、AI優化器助大模型訓練成本減半
據量子位(wei)報道,近日,新(xin)加坡(po)國立(li)大(da)學團隊(dui)打(da)造(zao)的CAME優(you)(you)化(hua)器在ACL會議上獲得(de)了杰出論文獎。優(you)(you)化(hua)器在大(da)語言(yan)模型的訓(xun)練(lian)中(zhong)占據了大(da)量內存資源,而(er)該(gai)團隊(dui)提出的優(you)(you)化(hua)器能夠在性能保持(chi)不變的情況下將內存消耗降低了一半,進(jin)而(er)把大(da)模型訓(xun)練(lian)成本降低近一半,據稱目前已經投入(ru)了實際應(ying)用。
論文地址:
//arxiv.org/abs/2307.02047
GitHub項目頁:
//github.com/huawei-noah/Pretrained-Language-Model/tree/master/CAME