
智東西(公眾號:zhidxcom)
作者?|?香草
編輯?|?李水青
智東西6月28日報道,今天,百度在WAVE SUMMIT深度學習開發者大會2024上,正式發布文心大模型4.0 Turbo版(ban)本,其同(tong)步(bu)上(shang)線(xian)網頁(ye)端和API接口,App端也將陸續上(shang)線(xian)。
▲文心大模型(xing)4.0 Turbo API開放
同時,飛槳平臺發布新一代飛槳框架3.0 Beta版(ban)本(ben),具備大模型訓推一(yi)體、動靜統一(yi)自(zi)動并行、編譯器自(zi)動優(you)化(hua)以及(ji)大模型多硬(ying)件適配等特色(se)。
百度智能代碼助手Baidu Comate升級至2.5版本,開發、業務迭代及企業落地速度大幅提升,并擁有了全新的中文名“文心快碼”,正式加入百度“文心大家族”。
據(ju)百(bai)度首席(xi)技術官、深度學習技術及應用國家(jia)工程研究中心(xin)主任王海峰介紹,文心(xin)一言目前用戶規模已(yi)突(tu)破3億(yi),每日調(diao)用量(liang)超過5億(yi);飛(fei)槳平(ping)臺已(yi)累計服務1465萬(wan)開發者、37萬(wan)企業,構建了(le)超95萬(wan)個(ge)模型。
一、用戶規模突破3億,文心大模型4.0 Turbo上線
經(jing)過(guo)幾十(shi)年(nian)的發展,AI技術從早期的人(ren)工撰寫(xie)規則,到后來的統(tong)計機器學習,演進到深度學習時代,再到大模(mo)型時代,算法、模(mo)型變得更加(jia)通用和統(tong)一。
王海峰談道,大模型(xing)為AGI帶來曙光(guang),可以(yi)從(cong)兩個角度解(jie)讀(du),一(yi)是(shi)AI技術的(de)(de)通(tong)用性(xing),二是(shi)AI能(neng)力的(de)(de)全面性(xing)。其中(zhong),全面的(de)(de)AI能(neng)力主要包括理解(jie)、邏輯(ji)、生(sheng)成、記憶四(si)個部分。
百度于(yu)2019年3月(yue)推(tui)出(chu)文心大模型1.0,經過多次迭代,其4.0版本于(yu)去年10月(yue)發(fa)布。目前,文心一言(yan)累(lei)計用(yong)戶規模已達3億,日調(diao)用(yong)次數5億。
今天(tian),百度推出(chu)文心大模型4.0 Turbo版本,其網頁(ye)端、API即日(ri)起面(mian)向用戶開放,App端也將陸(lu)續上線,企(qi)業用戶可登(deng)錄百度智能(neng)云千帆大模型平(ping)臺調用API服務。
▲文心大模(mo)型(xing)4.0 Turbo發布(bu)
文(wen)心(xin)4.0 Turbo在生(sheng)成(cheng)速度(du)和(he)效果上大幅提升。王(wang)海峰(feng)現場演示(shi)了其與4.0版本的生(sheng)成(cheng)效果對比,在相(xiang)同的提示(shi)詞下,4.0 Turbo的生(sheng)成(cheng)速度(du)明顯更(geng)快,生(sheng)成(cheng)內容(rong)也更(geng)具條理(li)性。
▲文心4.0 Turbo與(yu)文心4.0生(sheng)成速(su)度對比
在(zai)基礎模(mo)型(xing)升級上,百度(du)進(jin)一(yi)步研發(fa)了智能體(Agent)機(ji)制,包括(kuo)理解、規(gui)劃、反思和進(jin)化,使其(qi)能夠可靠執(zhi)行、自我進(jin)化,并一(yi)定程度(du)上將(jiang)思考過程白盒化,讓大模(mo)型(xing)像(xiang)人一(yi)樣思考和行動,調(diao)用工具自主完(wan)成復雜任務,在(zai)環境中持續學習實現自主進(jin)化。
▲基于文心大模型的智能體升級
百度還(huan)與中國工程院(yuan)朱(zhu)有勇(yong)院(yuan)士及團隊共同打造了(le)首個農(nong)業(ye)(ye)智能(neng)體“農(nong)民院(yuan)士智能(neng)體”,其基于(yu)文心智能(neng)體平臺創建,吸收了(le)朱(zhu)有勇(yong)院(yuan)士的(de)(de)研究成(cheng)果以(yi)及相關(guan)的(de)(de)農(nong)業(ye)(ye)知識,可以(yi)為農(nong)民解答生(sheng)產生(sheng)活(huo)中的(de)(de)問題。
▲農民院士智能體
百度集團(tuan)副(fu)(fu)總裁、深度學習技術及(ji)應用(yong)(yong)國家工程(cheng)研究中心(xin)副(fu)(fu)主任吳甜談道(dao),在過去半年,用(yong)(yong)戶使(shi)用(yong)(yong)文心(xin)大模型的(de)日(ri)均(jun)提(ti)問量提(ti)升(sheng)了78%,提(ti)問平均(jun)長度提(ti)升(sheng)89%,使(shi)用(yong)(yong)的(de)提(ti)示詞變得越(yue)(yue)來(lai)越(yue)(yue)復雜、具(ju)體。
大(da)量的應用基于(yu)文心(xin)大(da)模型進行創新,截至目前,文心(xin)一言已(yi)經創作了5.9億(yi)篇文章,繪(hui)制(zhi)了2.4億(yi)張(zhang)圖片(pian),生成了70億(yi)行代碼,共輔助了1.3億(yi)人次工作。
▲文心大模型累計成效
吳甜(tian)還分享了(le)(le)文(wen)心大(da)模型星河(he)共(gong)創計劃取得的成果(guo),自去年8月啟動以(yi)來,已創建1000+大(da)模型工具,超55萬AI應(ying)用,積累(lei)了(le)(le)超1000B高(gao)質量數據。
例(li)如,百度與長光(guang)衛星技術有限公司合作(zuo)開(kai)發(fa)了(le)共生地球智能助手,上線首月就服務了(le)3.1萬用戶(hu),解答遙感(gan)技術問題超3.8萬次(ci)。
二、飛槳推出3.0測試版,四層框架、四大優勢
飛槳(jiang)是百度推(tui)出的開(kai)(kai)源開(kai)(kai)放產業級深(shen)度學習平(ping)臺,據王海峰介紹(shao),其目(mu)前(qian)已累計服務1465萬開(kai)(kai)發者、37萬家企業,創(chuang)建了95萬個模(mo)型。
今(jin)天,飛槳框架3.0 Beta版本正式(shi)發布,具(ju)備動(dong)靜統一(yi)自(zi)動(dong)并行、編譯器自(zi)動(dong)優化、大(da)模型(xing)(xing)多硬件適配、大(da)模型(xing)(xing)訓推一(yi)體4大(da)特點。
▲百度飛槳框架3.0 Beta
在(zai)設計理(li)念(nian)上(shang),考慮到大模(mo)型(xing)(xing)和異構多(duo)芯發(fa)展趨勢(shi),為了保障(zhang)大模(mo)型(xing)(xing)訓練推(tui)理(li)性(xing)能、簡(jian)化大模(mo)型(xing)(xing)開發(fa)調優(you)過程以及更好地適配(pei)各種(zhong)芯片(pian),飛(fei)槳與文心聯合,在(zai)訓練、推(tui)理(li)兩個方面定向優(you)化。
▲飛槳框架設計理念
具體來說,動(dong)靜統(tong)一的自動(dong)并行(xing)能力(li)通過極簡開(kai)發,實現大模型(xing)的混合并行(xing)訓(xun)練(lian),可以(yi)將(jiang)分布式訓(xun)練(lian)核心(xin)代碼量(liang)減少50%以(yi)上(shang),典(dian)型(xing)模型(xing)訓(xun)練(lian)性能領先20%。
編譯器自(zi)動優化能高效支撐大(da)模型與AI科學(xue)計算,通(tong)過一體化設計提升(sheng)通(tong)用模型訓練效率,將大(da)模型推理通(tong)用性能提升(sheng)30%,典型科學(xue)計算模型求解速度領先(xian)71%。
▲編譯器自動優化
在大模型(xing)多硬件適配方(fang)面(mian),通過低成(cheng)本的(de)硬件接(jie)入支撐軟(ruan)硬協同(tong)優化(hua),開發(fa)者僅需適配30余接(jie)口即可全面(mian)支持大模型(xing)訓練(lian)、壓縮、推理(li)。
大模型訓推一體是飛槳框架3.0的核心特色,通過訓練、壓縮(suo)、推理的無縫銜接,實現RLHF訓練復用推理引擎加速2.1倍,量化(hua)壓縮(suo)復用分布式策略效(xiao)率(lv)提(ti)升3.8倍。
▲大模型訓推一體
從整體框架(jia)(jia)來看(kan),飛槳3.0分為表示層(ceng)(ceng)、調(diao)度(du)層(ceng)(ceng)、算子層(ceng)(ceng)、適配層(ceng)(ceng)共4層(ceng)(ceng)架(jia)(jia)構(gou)。值得注意的(de)是,飛槳3.0的(de)開發(fa)接口(kou)和(he)2.0版(ban)本完(wan)全兼(jian)容,用戶無需將代(dai)碼推翻重來。
▲飛槳3.0框架
飛槳(jiang)還針對AI for Science進行了優化,能(neng)夠適配主流(liu)科學計(ji)算(suan)庫130多個(ge)模(mo)型(xing),覆蓋數據、機理(li)、數理(li)融合的全球(qiu)求解(jie)模(mo)式,能(neng)廣泛支持科學問(wen)題分析,其中基于高(gao)階自動微(wei)分及(ji)編(bian)譯優化技術,方程求解(jie)類模(mo)型(xing)對比PyTorch求解(jie)速度平均領(ling)先(xian)71%。
三、智能代碼助手升級2.5版本,覆蓋百度內部80%程序員
百度(du)副總(zong)裁陳洋(yang)發布了智(zhi)能代(dai)碼助(zhu)手(shou)Comate的2.5版本,升級(ji)后的代(dai)碼助(zhu)手(shou)集成了更(geng)多研發知識,覆蓋流程更(geng)全(quan)面。
▲百度智能代碼助手升(sheng)級(ji)2.5版本
同時,該助手還擁有(you)了(le)中文(wen)(wen)(wen)名字——文(wen)(wen)(wen)心快碼,正式加入百度文(wen)(wen)(wen)心大家族。
陳洋介(jie)紹道,文心快(kuai)碼的“快(kuai)”主要體現(xian)在3個方面:開發(fa)速度快(kuai)、業務迭(die)代(dai)快(kuai)、企業落地(di)快(kuai)。
▲文心快碼2.5
具體來說(shuo),在開發速度上(shang),文心(xin)快碼融合了更多研(yan)發知識,包括(kuo)數(shu)百位技術(shu)專家的實踐經驗、十億(yi)級研(yan)發領(ling)域知識以及上(shang)萬(wan)企業的研(yan)發場景(jing)。
在百度(du)內(nei)部使用中,基于文心快碼(ma)生(sheng)成的開(kai)發框架代碼(ma)準確度(du)達到80%,單位時間內(nei)提(ti)交代碼(ma)數(shu)量提(ti)升(sheng)了35%。
▲文心(xin)快(kuai)碼(ma)開(kai)發速度提升
在(zai)業務迭(die)代(dai)上,文心快碼(ma)無(wu)縫集成研發(fa)各個環節(jie),包括(kuo)需求(qiu)的調(diao)研、設計,代(dai)碼(ma)的編寫、測試、發(fa)布(bu)等。
陳洋(yang)稱,在百度研發(fa)環節(jie)的單(dan)(dan)點提效(xiao)上,基于文心快碼的單(dan)(dan)行代碼編寫時長壓縮到(dao)1.74秒(miao),部署(shu)腳(jiao)本(ben)自動生成達到(dao)秒(miao)級,單(dan)(dan)次線下環境部署(shu)耗時節(jie)省10分鐘以上。總的來說(shuo),對單(dan)(dan)個工程師的研發(fa)整(zheng)體提效(xiao)超過14%。
▲文心快碼(ma)業(ye)務迭代速度提升
在(zai)企(qi)業落地(di)層(ceng)面(mian),針對行(xing)業規范差異、企(qi)業私域知識(shi)、代碼(ma)助手與(yu)企(qi)業內部工具結合等痛點,文心(xin)快(kuai)碼(ma)提供安全可信、適配業務等核心(xin)能力(li)。
經過1年(nian)的實踐周期,在百度(du)內部(bu)過萬名工程師中,文心快碼(ma)(ma)的覆(fu)蓋率已達到80%,其生(sheng)成代碼(ma)(ma)的采用(yong)率達到46%,新增(zeng)代碼(ma)(ma)生(sheng)成占(zhan)比29%。
陳洋還分享了標(biao)桿客(ke)戶喜馬拉雅的(de)(de)落地(di)案例,其只用1個季度(du),就(jiu)實現了工程師中(zhong)90%的(de)(de)覆蓋率,代碼(ma)采納率達到44%,新增代碼(ma)生(sheng)成(cheng)占比33%。
▲文(wen)心(xin)快碼(ma)企業落地(di)案例
喜(xi)馬(ma)拉雅(ya)CTO姜杰稱,文心快碼(ma)與喜(xi)馬(ma)拉雅(ya)積累的研發(fa)(fa)能力、知識相融(rong)合,大(da)幅縮短了技術調研和代(dai)碼(ma)編(bian)寫(xie)時間,極大(da)提升了企業(ye)整體研發(fa)(fa)效率(lv)和產品質量(liang)。
目前,文心(xin)快碼提供標準版(ban)(ban)、專(zhuan)業版(ban)(ban)、企業版(ban)(ban)以及企業專(zhuan)有版(ban)(ban)共4個版(ban)(ban)本,其中專(zhuan)業版(ban)(ban)面向專(zhuan)業開(kai)發(fa)者(zhe)限時開(kai)放,基礎功能(neng)(neng)和高級功能(neng)(neng)與模型不限量使用。
結語:AI進入工業大生產階段
從歷史的角度來看,縱觀前三次工(gong)業革命,其核(he)心驅動(dong)力(li)量機械技(ji)術、電氣(qi)技(ji)術和(he)信息(xi)技(ji)術都具備(bei)很(hen)強的通用性。王海峰談道,當(dang)它們呈現出標(biao)準化、自(zi)動(dong)化和(he)模塊(kuai)化的工(gong)業大(da)生產特征時,核(he)心技(ji)術就(jiu)進入工(gong)業大(da)生產階段。
目前,包括(kuo)算法(fa)、數據、模型、工(gong)(gong)具等在內的AI技術,也已(yi)經具備了較強的通(tong)用性,并具備了標(biao)準化(hua)、模塊化(hua)和自(zi)動(dong)(dong)化(hua)的特征,推(tui)動(dong)(dong)AI進入(ru)工(gong)(gong)業大生產(chan)階段。