
智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 漠影
隨著AIGC(生成式AI)引爆(bao)新一(yi)輪(lun)全球科技競賽,百度對話(hua)機器人“文(wen)心一(yi)言”上線也進入倒(dao)計(ji)時,3月“交(jiao)卷”籌備如何(he)備受各界關注。
適(shi)逢百(bai)度財(cai)報今日(ri)發布,百(bai)度2022年(nian)(nian)營收約1237億(yi)元(yuan),凈利潤約207億(yi)元(yuan),研發投入達214億(yi)元(yuan),約等(deng)于(yu)把(ba)一(yi)年(nian)(nian)賺的(de)錢全用來做研發了;同時,AI產(chan)業化(hua)成果(guo)初(chu)顯,百(bai)度智能(neng)云(yun)已連續四年(nian)(nian)居AI公(gong)有(you)云(yun)市(shi)場第一(yi),關于(yu)百(bai)度文心一(yi)言(yan)的(de)多個動向也隨之曝出:
已有超400家企業宣布加入文心一言生態圈,同時百度多項主流業務將接入文心一言,包括百度搜索,以及基于百度智能云的智能語音助手小度、智能駕駛阿波羅(Apollo)等。
▲百(bai)度2022年的研(yan)發(fa)投入及AI新進展
作為中國AI市場(chang)長(chang)(chang)期增長(chang)(chang)的代表,百度正站在(zai)浪潮(chao)之巔。
百度創始人兼董事長李彥宏在財報發布后的內部信中說:“AI技術已經發展到一個臨界點,各行各業都不可避免地被改變,中國AI市場即將迎來爆發性的需求增長。”實際上,這(zhe)一(yi)新機會引(yin)起了全(quan)球產業的(de)沸騰(teng),基于大模型的(de)AIGC成(cheng)為一(yi)片(pian)掘金熱土。
▲百(bai)度(du)創始(shi)人(ren)兼董事長(chang)李彥(yan)宏
美國(guo)硅谷的(de)微(wei)軟、谷歌等(deng)科技巨(ju)頭為(wei)此打得不可開交;國(guo)內,百度、科大(da)訊飛(fei)、復(fu)旦大(da)學等(deng)大(da)廠和知名(ming)學府紛紛出手,原美團(tuan)“二號人物”王慧文、出門問問創始人李(li)志(zhi)飛(fei)等(deng)科技大(da)佬也(ye)一頭扎入AIGC創業大(da)潮(chao)……
而作為國內在(zai)“AI+搜索”首屈一指的互聯網大廠(chang),百度十年(nian)AI理想和(he)窮盡實驗(yan),或許正進入(ru)爆發(fa)前夜。
一、每月投18億做研發,迎戰全球AIGC競賽
AI研(yan)發向來是一項費錢的事業。盡管2022年(nian)業務深受疫情影(ying)響,百度依(yi)然保持了“月投18億(yi)做研(yan)發”的記錄。
從經營基本(ben)面來看(kan),根據財報(bao),百(bai)度(du)本(ben)季度(du)營收(shou)約331億(yi)元(yuan),高于市場(chang)預(yu)期(qi)的320億(yi)元(yuan);歸屬(shu)百(bai)度(du)的凈利潤約54億(yi)元(yuan),同比增長32%。
▲百(bai)度近年營收及增長情況
在研發投(tou)入(ru)方面,百度保持了多年(nian)以來(lai)的高研發投(tou)入(ru),2022年(nian)約(yue)達到214億元(yuan),相當于每(mei)月(yue)投(tou)18億做研發,占百度核心收入(ru)22.4%,在全國科技公(gong)司里位于前列。
▲百度近年研發投入情況
持續的研發(fa)投入(ru),正在轉(zhuan)化(hua)為產(chan)業(ye)化(hua)成果。比如承(cheng)載AI產(chan)業(ye)化(hua)的百度智能云部門,2022年強化(hua)了“云智一體”戰略,已連續四年居于中國AI公有(you)云市場第一。
而(er)在前(qian)沿(yan)技術研發方(fang)面(mian),百(bai)度TPG部門最(zui)新的文心(ERNIE)大模型成果,正成為百(bai)度應對全球AIGC產業化浪潮(chao)的錨點支撐(cheng)。
在剛剛過去的(de)2022年Q4,百(bai)度在11月的(de)深(shen)度學習(xi)開發(fa)者峰會上(shang)全新發(fa)布11個(ge)大模型(xing)(xing)(xing),包括5個(ge)基礎大模型(xing)(xing)(xing)、1個(ge)任務大模型(xing)(xing)(xing)、5個(ge)行業大模型(xing)(xing)(xing)。同(tong)時,百(bai)度新發(fa)布和(he)(he)升級(ji)基于(yu)文(wen)心大模型(xing)(xing)(xing)的(de)兩大產品——AI 作(zuo)畫產品“文(wen)心一格(ge)”和(he)(he)產業級(ji)搜索系統(tong)“文(wen)心百(bai)中”。
文心是百度自主研發(fa)的產業(ye)級知識增(zeng)強大(da)(da)模型,與當下流(liu)行的大(da)(da)模型GPT-3.5相似。截至目前(qian),文心已(yi)累計發(fa)布11個(ge)行業(ye)大(da)(da)模型,涵蓋(gai)電(dian)力、燃氣(qi)、金融、航天、傳媒、城市、影視、制造、社(she)科等領(ling)域。
▲百(bai)度文心產業級知(zhi)識增(zeng)強大(da)模(mo)型(xing)框架圖
隨(sui)著2023年新季度(du)的開啟,百度(du)將于3月推出又一個生(sheng)成式AI產品(pin)“文心一言(yan)”,以此續寫(xie)迎戰全(quan)球(qiu)AIGC競賽的篇章。
二、十年AI理想與研發長跑,在中文搜索土壤上開花
要問當下什么是AIGC的最佳商業化應用(yong)?
搜索引擎一定榜(bang)上(shang)有名。
接入了ChatGPT的微軟新版Bing秒變私人智能助理,谷歌對標產品Bard也進入了全公司萬人內測階段……憑借“百度一下”被全國人認識的百度也出手了——在今年1月Create AI開發者大會前夕,百度宣布將搜索升級為“生成式搜索”,這意味著百度搜索將提供更好的答案、交互聊天和生成內容。
躋身全球(qiu)AIGC產業化競賽舞臺,百度正(zheng)試(shi)圖引領中文搜(sou)索體驗的(de)代際變革。
根據財報可知,作為基本盤,搜索業務為百度文心一言的誕生提供了厚實土壤。2022年Q4,百(bai)(bai)度搜索規模同(tong)比增長17%,領跑優勢持續擴大。12月,百(bai)(bai)度App月活躍用戶(hu)達到6.48億(yi),同(tong)比增長4%。此(ci)外,隨著國內市(shi)場消(xiao)費需(xu)求(qiu)釋放,百(bai)(bai)度在(zai)線(xian)廣告營(ying)銷業務(wu)(wu)預計將迎來(lai)復蘇。這些增長都與百(bai)(bai)度基本盤搜索業務(wu)(wu)緊密(mi)相(xiang)關,從而為文心(xin)一言的落地(di)提供了(le)底盤基座。
▲百度移動生態流(liu)量(liang)池保持(chi)增(zeng)長(chang)
知名分析機構麥格理預計,百度2023年廣告及云服務收入增長將會有所回升,受惠于有效的成本控制措施,整體利潤率提高,而可見的上行驚喜將會是公司有機會在中國推出類似ChatGPT的人工智能(AI)聊天機器人。
可以預測,隨著接(jie)入文心一言,百度(du)搜(sou)索將擴大服務場景和市場規模(mo)。AIGC有望助百度(du)搶占(zhan)內容生(sheng)態高地,比如增加百度(du)平臺上的高質(zhi)量短視頻供應,助百家號發布者提高轉換效率(lv)等(deng)。
實(shi)際上,除了(le)搜索,百度文心一言將通過(guo)智能云提(ti)供服務(wu),應用(yong)于智能駕駛阿波羅(Apollo)、智能語音助手小(xiao)度等多塊(kuai)業務(wu),使得用(yong)戶體驗實(shi)現(xian)跨代(dai)進化(hua)。
當(dang)然,AIGC相關技術研發難(nan)度大(da),即便是(shi)微軟新版Bing在近期的測試中也是(shi)“翻車”不(bu)斷(duan),百(bai)度文心一言(yan)做的怎么樣(yang)依然是(shi)一個未知答(da)案(an)。攻克技術缺陷需要時間(jian),這(zhe)對百(bai)度來說挑戰和(he)壓力不(bu)小。
不過,百度文心一言的誕生并非一日(ri)之功,超10年在NLP(自(zi)然語言處理)領(ling)域(yu)的積(ji)累或許(xu)能為其提(ti)供堅實支持。
早在2010年,百度就創立了自然語言處理部,在語音、圖片等技術上布局;2019年3月,百度提出知識增強的語義理解框架文心(ERNIE),在深度學習的基礎上融入知識和持(chi)續學習,當(dang)時(shi)一(yi)舉登頂全(quan)球權(quan)威數據集GLUE榜(bang)單。
2021年9月,百度(du)發布(bu)了(le)全球首個百億參(can)數的對話大模型(xing)PLATO-XL,再次刷新了(le)開放域對話效果;2022年12月,文心大模型(xing)迭代出ERNIE 1.0、ERNIE 2.0、ERNIE-Tiny多(duo)個版本,開始加速落地(di)到各個行業(ye)。
十年AI理想與研發(fa)長跑,在(zai)百度(du)中(zhong)文搜索(suo)土壤上(shang)開花,并開始走向千行百業實體經濟的結出果實。
三、熱戰微軟、谷歌,百度文心一言打造四大護城河
熱戰微軟、谷歌(ge),國產大模型(xing)將(jiang)與硅(gui)谷科(ke)技巨頭進行在不同的舞(wu)臺隔空PK。
百(bai)度(du)創始(shi)人(ren)(ren)兼董事長李彥宏在(zai)近(jin)期公(gong)開發言中說:“怎么把這(zhe)么酷(ku)的(de)技術,變成人(ren)(ren)人(ren)(ren)需要的(de)好產品,賦能(neng)(neng)千行(xing)百(bai)業,讓他們的(de)生產效率大(da)幅度(du)地提升(sheng)?這(zhe)一步(bu)才是(shi)最難的(de),也是(shi)最偉大(da)、最能(neng)(neng)夠產生影響力(li)的(de)。”
根據官方數(shu)據可(ke)知,目前已有包括互(hu)聯網、媒體、金(jin)融、保險(xian)、汽(qi)車、企(qi)業(ye)軟(ruan)件(jian)等(deng)行(xing)業(ye)的(de)(de)超400家頭(tou)部企(qi)業(ye)宣布(bu)加入百度文心一言生態。而文心一言能(neng)否為這些行(xing)業(ye)伙伴帶(dai)來驚艷的(de)(de)效(xiao)果?成(cheng)為當(dang)下階段百度團隊(dui)的(de)(de)主(zhu)要攻堅戰。
面(mian)向這(zhe)一(yi)攻堅戰,百度從至少算法、算力、數(shu)據、應用四(si)大方面(mian)建立了技(ji)術護城河。
1、四年大模型飛速迭代,飛槳底座匯聚535萬開發者
無論是大模型(xing)算法還(huan)是AI開發(fa)框架,百度都(dou)走在(zai)國內科技(ji)大廠(chang)的前列。
文心一言背后,文心大模(mo)型迭(die)代四年至今,已從單(dan)一的自(zi)然語言理(li)解延伸至多模(mo)態(tai),實現視覺、文檔、文圖、語音(yin)“全能”,具備較強泛(fan)化能力和性能。以最新發布的ERNIE 3.0 Zeus為例(li),已擁(yong)有千(qian)億級參(can)數,據(ju)稱(cheng)公開數據(ju)集上小樣本學習、理(li)解和生成(cheng)任務(wu)效(xiao)果(guo)皆(jie)好于(yu)業界(jie)其他模(mo)型。
支撐(cheng)文心模型訓練的框架(jia)是百度飛槳(PaddlePaddle),中國(guo)首個自主研發的產業級深(shen)(shen)度學習開源(yuan)開放(fang)平(ping)臺。一方(fang)面飛槳技術不斷迭代,2022年(nian)11月剛在(zai)MLPerf Training v2.1測試(shi)中奪(duo)魁;另一方(fang)面生態(tai)不斷壯大,截至2022年(nian)11月底,飛槳平(ping)臺上已凝聚535萬開發者、創(chuang)建67萬個AI模型,服務20萬家企事業單位,位列中國(guo)深(shen)(shen)度學習平(ping)臺市(shi)場綜合份額第一。
▲飛槳平臺全景圖
2、三大云中心穩定供算力,幾萬片自研芯澎湃加速
大模型戰場正變得越來越熱(re)鬧,算(suan)力成本(ben)隨著飆升(sheng)。比如(ru)GPT-3大模型的單次(ci)訓(xun)練(lian)成本(ben)上百萬美元(yuan)、總訓(xun)練(lian)成本(ben)上千萬美元(yuan)。
在算(suan)力(li)方面,百(bai)(bai)度(du)在陽泉、徐水(shui)、定興三地建立了自用(yong)云計(ji)算(suan)中心(xin)(xin),龐大的超算(suan)集群為(wei)文心(xin)(xin)大模型的訓練奠(dian)定了基礎設施(shi)。百(bai)(bai)度(du)智能云在成為(wei)百(bai)(bai)度(du)第二增長曲線的同(tong)時,也能為(wei)文心(xin)(xin)大模型應用(yong)提供高并發、高彈性、高精度(du)等不同(tong)計(ji)算(suan)需求。
同(tong)時,百度自研AI芯片“昆侖”已(yi)在多場景(jing)實際部署幾萬(wan)片,在公司搜索業務中也已(yi)形成較強工程化(hua)實踐(jian),為文心大(da)模型底層算(suan)力鋪上(shang)了加速路。
▲百度“芯片-框架-大模型-行業應用”的智能化閉環路徑
3、自有業務海量真實文本,具備先天數據優勢
眾所周知,擁(yong)有千億參數的(de)大模型是用海量數據“喂出來的(de)”。
在(zai)數據(ju)層面,百度(du)以移動(dong)APP、搜索等業務為依托,積累了海(hai)量真(zhen)實(shi)文(wen)本和用戶需求數據(ju)。這些大規模結(jie)構化、非結(jie)構化數據(ju)有望支(zhi)撐文(wen)心一言充分預訓(xun)練,形成自身優勢。此(ci)外,在(zai)安(an)全領域(yu)多年的深耕也將為文(wen)心一言保駕護航。
4、多款應用提供創新土壤,用戶開放帶起迭代飛輪
正(zheng)如前文(wen)提到的,文(wen)心(xin)(xin)一(yi)言能夠落地到百度(du)搜索、小度(du)、阿波(bo)羅等多塊自有業務,這些(xie)產品(pin)不少已在市場占(zhan)據(ju)領導地位。隨著文(wen)心(xin)(xin)一(yi)言的嵌入(ru),這些(xie)產品(pin)有望(wang)實現代際變革;產品(pin)的迭代也將反推文(wen)心(xin)(xin)一(yi)言繼(ji)續進(jin)化。
另外,隨著(zhu)文心一言的(de)公眾開放,真實的(de)用(yong)戶調(diao)用(yong)和(he)模(mo)型(xing)迭(die)代之(zhi)間的(de)良性循環(huan)建立(li)起來,文心一言大(da)模(mo)型(xing)的(de)智力有望不斷升級。
此外值得一提的(de)是(shi),文(wen)心(xin)一言(yan)(yan)在迎(ying)戰(zhan)國外AIGC產品的(de)同時,更需(xu)要適應中國市場的(de)實(shi)體經(jing)濟數字化(hua)轉型需(xu)求。根據百度方發言(yan)(yan),文(wen)心(xin)大模(mo)型是(shi)本土化(hua)的(de)AI模(mo)型,具(ju)備對中文(wen)、中國文(wen)化(hua)的(de)更深理解,這意味著文(wen)心(xin)一言(yan)(yan)可(ke)能會(hui)更適合中文(wen)和中國市場。
結語:巨頭AIGC競賽號角拉響,中國AI產業迎來“小陽春”
全(quan)球AIGC的巨頭戰已經打響,在AI和搜索領(ling)域深耕多年(nian)的百度站在了新的歷史(shi)舞臺上。2019年(nian)推出文(wen)心(xin)大模型,其將于(yu)3月推出的文(wen)心(xin)一言可(ke)以說是中國科(ke)技力(li)量參戰全(quan)球AIGC競賽的一大代表。
適逢文心(xin)一(yi)言(yan)上(shang)線進(jin)入(ru)倒計時,百度發(fa)布了2022年的財報及(ji)Q4的業務進(jin)展(zhan)情況,成為提前了解其“答卷”的參考(kao)。百度搜索(suo)、智能云(yun)、阿(a)波羅、小度等業務快(kuai)速發(fa)展(zhan),成為文心(xin)一(yi)言(yan)大模型在(zai)實際落地中(zhong)不斷迭代的試驗田。
不(bu)久之前(qian),人們(men)似乎還在(zai)AI產業(ye)的(de)(de)低(di)谷仰望光明(ming),不(bu)知道通用人工智能(neng)的(de)(de)曙光何時出現(xian)。現(xian)在(zai),隨著全球(qiu)AIGC巨頭戰號角吹(chui)響,AI市場又(you)熱了起來,中國方興未艾的(de)(de)AI產業(ye)有望迎來一個“小陽春”。