智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 李水青

智東西11月29日(ri)報道,今天,AICC 2023人工智能計(ji)算大(da)(da)會(hui)上,北京市公(gong)布了大(da)(da)模型應用、算力(li)基(ji)礎設施、中(zhong)文數據集三方面(mian)的(de)重(zhong)磅新成果!

1、《北京市人工智能行業大模型創新應用白皮書(2023年)》(以下簡稱《白皮書》)發布,調(diao)研六大領(ling)域近百家企業的大模型(xing)應(ying)用,為大模型(xing)產業應(ying)用落地提供(gong)參考;

《白皮書》鏈接://kw.beijing.gov.cn/art/2023/11/29/art_6382_724110.html

2、海淀區北京人工智能公共算力平臺點亮,與智譜華章、紫東太初(chu)等首批(pi)入駐大模型(xing)企業簽約;

3、“中文互聯網語料庫”首期104GB數據公開,數據集時(shi)間跨度(du)為2001年1月至(zhi)2023年11月。

智(zhi)源開(kai)放數據倉庫下載(zai)地址: //data.baai.ac.cn/details/BAAI-CCI

HuggingFace下(xia)載地(di)址://huggingface.co/datasets/BAAI/CCI-Data

國際數據調研機構(gou)IDC和算力龍頭企業浪(lang)潮信息聯合(he)發(fa)布的《2023-2024年(nian)中國人工智能計(ji)算力發(fa)展評(ping)估報告》提到(dao),中國人工智能計(ji)算力發(fa)展評(ping)估城市排(pai)行榜的前五名為(wei)北(bei)京、杭州、深圳、上海、蘇(su)州,且(qie)北(bei)京連(lian)續六年(nian)排(pai)名第(di)一。

從大(da)模(mo)型產(chan)業的發展情況來看,北京市目前(qian)在人(ren)工智能(neng)(neng)創新算力基礎(chu)、人(ren)才(cai)資(zi)源、研發能(neng)(neng)力方面都有較大(da)優勢,且人(ren)工智能(neng)(neng)核心企業數量(liang)(liang)、算力基礎(chu)設施(shi)規模(mo)、備案大(da)模(mo)型數量(liang)(liang)位居全國第(di)一。

此次發布(bu)的一系列重磅成(cheng)果(guo),正是(shi)北京市(shi)面(mian)向大(da)模型產(chan)業發展在(zai)算力、數據、應用落地(di)等(deng)核心痛(tong)點的有利(li)突破(po)。創(chuang)新(xin)成(cheng)果(guo)從北京市(shi)大(da)模型企(qi)業的實際案例(li)出發,為企(qi)業創(chuang)新(xin)發展提供一定的借鑒參考,并從政策層面(mian)為產(chan)業生態提供支撐(cheng)。

此前,北(bei)(bei)(bei)京市(shi)已經發布(bu)了一系(xi)列人(ren)(ren)(ren)工(gong)智(zhi)能(neng)相關的(de)(de)政策,如《北(bei)(bei)(bei)京市(shi)加(jia)(jia)快建設具有全(quan)球影響力(li)的(de)(de)人(ren)(ren)(ren)工(gong)智(zhi)能(neng)創新策源(yuan)地實施方(fang)案(an)(2023-2025年)》、《北(bei)(bei)(bei)京市(shi)促進(jin)通(tong)用人(ren)(ren)(ren)工(gong)智(zhi)能(neng)創新發展(zhan)的(de)(de)若干措施》、《人(ren)(ren)(ren)工(gong)智(zhi)能(neng)算力(li)券實施方(fang)案(an)(2023—2025年)》,這些(xie)都已經成(cheng)為(wei)北(bei)(bei)(bei)京市(shi)人(ren)(ren)(ren)工(gong)智(zhi)能(neng)產業加(jia)(jia)速發展(zhan)的(de)(de)重(zhong)要保(bao)障(zhang)。

一、北京大模型約占全國一半,行業應用四大特點凸顯

距離2022年11月30日ChatGPT發布已(yi)經一(yi)年,大模型帶來的技術革新(xin)熱度(du)不減,與此同時,大模型產業的眾多參與者已(yi)經將(jiang)目光(guang)從算(suan)力投向應用落地(di)。

從國內的大模型產業發展來看,北京市已經成為國內人工智能領域創新基礎、人才資源、研發能力都有明顯優勢的城市之一。根據《白皮書》,2022年北京市人工智能核心產值規模達2170億元,核心企業數量已經超過1800家,截至2023年10月,我國10億參數規模以上的大模型廠商及高校院所共計254家,北京擁有其中122家,約占全國的一半

北京大模型應用再加碼!發創新應用白皮書、點亮公共算力平臺、首期中文互聯網語料庫CCI亮相

與(yu)此同時,大模型應(ying)用落(luo)地(di)加速(su)之際(ji),北京市眾多產(chan)業玩家(jia)已經在(zai)政務、金融、醫療等領(ling)域實現(xian)落(luo)地(di),并且其(qi)布局特(te)點(dian)也逐漸(jian)清晰。

模型演進來看,通用大模型已經呈現出強大的泛化能力,但在與各行各業深入融合時,由于缺乏行業深度,無法針對性解決特定行業的實際需求。因此,通過面向特定領域進行大模型訓練,打造垂直行業大模型能滿足行業特定需求,成為大模型商業化落地的重要方向

大模型應用的賽道方面,目前北京市大模型的應用速度較快的領域為傳統產業賦能和金融領域原因在于這兩大(da)領域的(de)央國(guo)企密(mi)集(ji),具有較強的(de)數(shu)據基(ji)礎設施、算力投入和人工智能應用基(ji)礎,對(dui)于推進大(da)模型應用也更(geng)加主(zhu)動。

北京大模型應用再加碼!發創新應用白皮書、點亮公共算力平臺、首期中文互聯網語料庫CCI亮相

大模型對于內容理解、生成的能力不斷增強,逐漸從文字、圖片生成升級到視頻、音頻、3D動畫生成。《白皮書》提到,大模型的應用類型主要有內容生成、智(zhi)(zhi)能(neng)問(wen)答、IT支持、數據分析、智(zhi)(zhi)能(neng)識別和智(zhi)(zhi)能(neng)硬件六類。

其中,內容生成和智能問答兩個方面的應用類型已經逐漸成熟。面向B端,這兩類應用(yong)對于行(xing)業(ye)降本增效、業(ye)務價值(zhi)提升、落地速度的價值(zhi)體現更為明顯,這在一(yi)定程度上能(neng)夠快速完成市場教育,進一(yi)步推(tui)進大模型應用(yong)落地。

商業模式角度,大模型形成了以通用大模型人工智能服務為主的基礎層、以垂直行業領域人工智能服務為主的行業層和以大模型應用服務為主的應用層的“基礎+行業+應用”的三層架構

北京大模型應用再加碼!發創新應用白皮書、點亮公共算力平臺、首期中文互聯網語料庫CCI亮相

大(da)模(mo)型的(de)商業(ye)模(mo)式正是通(tong)(tong)過通(tong)(tong)用大(da)模(mo)型底座的(de)強大(da)能力,與行業(ye)細(xi)分領域相結合,再(zai)將能力集(ji)成(cheng)到(dao)實際應用中,從而(er)讓大(da)模(mo)型的(de)真正社會價值得以體現(xian),并對人們的(de)生活、工作產生影響。

不(bu)論從(cong)大模(mo)型自身能力的升級迭(die)代,還是行(xing)業實際痛點(dian)來看,大模(mo)型商業化(hua)落(luo)地(di)(di)應用已經(jing)迫在(zai)眉睫。一些行(xing)業先行(xing)玩家的應用落(luo)地(di)(di)實例,為國內大模(mo)型大規(gui)模(mo)商業化(hua)落(luo)地(di)(di)提供了(le)經(jing)驗。

二、調研六大領域近百家企業,AI率先落地傳統產業及金融

從北(bei)京(jing)市的大模(mo)型(xing)產(chan)業(ye)應用(yong)(yong)來(lai)看,大模(mo)型(xing)產(chan)業(ye)玩家的落地(di)應用(yong)(yong)集(ji)中于政務、金(jin)融、醫療、傳統產(chan)業(ye)賦(fu)能、文化(hua)旅游、智(zhi)慧城市六(liu)大領(ling)域(yu)。

《白皮書》調研了六大領域中近百家企業的行(xing)業(ye)大模型應用(yong)案(an)例(li),并梳理出其(qi)中(zhong)18個典型案(an)例(li),從不同領(ling)(ling)域(yu)的特點出發(fa),結合企業(ye)的實(shi)際案(an)例(li),以此整合出當(dang)下北京市行(xing)業(ye)大模型商業(ye)落(luo)地的挑戰。其(qi)中(zhong),應用(yong)發(fa)展較(jiao)快的為傳統(tong)產業(ye)賦能和金融(rong)領(ling)(ling)域(yu)。

北京大模型應用再加碼!發創新應用白皮書、點亮公共算力平臺、首期中文互聯網語料庫CCI亮相

金融業的痛點在(zai)于,其IT架構龐(pang)大(da),數據(ju)量(liang)很高,如何在(zai)符合數據(ju)安(an)全合規等要求下,用大(da)模(mo)型(xing)的能力實現降本增(zeng)效,并擴展其兼容能力。

再加(jia)上金(jin)融(rong)(rong)行業對信息準(zhun)確性、數據合(he)規(gui)等(deng)要求較(jiao)高,短期內,大模型(xing)在(zai)金(jin)融(rong)(rong)行業的(de)落地方(fang)向(xiang)集(ji)中于(yu)研報(bao)撰寫(xie)、客服輔助提示等(deng)非核心系統應用。從長(chang)期來看(kan),大模型(xing)的(de)應用方(fang)向(xiang)在(zai)金(jin)融(rong)(rong)領域將(jiang)進一步(bu)擴大,隨著大模型(xing)能(neng)力的(de)進一步(bu)提升,招股書生成(cheng)編寫(xie)、智(zhi)(zhi)能(neng)研報(bao)合(he)規(gui)審查、大模型(xing)智(zhi)(zhi)能(neng)數據治(zhi)理等(deng)場景或許(xu)將(jiang)與大模型(xing)實現(xian)更好的(de)結(jie)合(he)。

目前,基于大模(mo)型技術(shu),AI獨(du)角(jiao)獸公(gong)司曠(kuang)視科技推出個(ge)人征(zheng)(zheng)信(xin)創新技術(shu)方(fang)案(an),該方(fang)案(an)可以自(zi)動篩選(xuan)有效變(bian)量(liang),并通過Transformer架構進行自(zi)監督預訓練,進一步預測用戶(hu)的貸款(kuan)意愿。在此基礎上,曠(kuang)視科技與樸道(dao)征(zheng)(zheng)信(xin)合作打(da)造的個(ge)人客戶(hu)資質評分服(fu)務,幫助樸道(dao)征(zheng)(zheng)信(xin)的客戶(hu)轉化率提升了20%。

傳統產業是我國經濟的重(zhong)要(yao)組成部分,大模型技術(shu)在推動(dong)傳統產業(ye)的數字化(hua)轉(zhuan)型升級方(fang)面(mian)扮演著重(zhong)要(yao)角色(se)。

這一產業(ye)的特(te)點(dian)(dian)在(zai)于(yu),中小(xiao)企(qi)(qi)(qi)業(ye)在(zai)營(ying)銷工具、IT研發等方面基礎(chu)薄弱(ruo),平臺型企(qi)(qi)(qi)業(ye)較(jiao)難(nan)帶(dai)動產業(ye)鏈上中下游(you)中小(xiao)企(qi)(qi)(qi)業(ye),以及(ji)因傳統企(qi)(qi)(qi)業(ye)涉及(ji)場(chang)景較(jiao)多,其市場(chang)需求個性化程度較(jiao)高,中小(xiao)企(qi)(qi)(qi)業(ye)很難(nan)快速了解企(qi)(qi)(qi)業(ye)的核心(xin)痛點(dian)(dian)。

因此(ci),《白皮書》提(ti)到,針對(dui)傳統產業的(de)痛點,一(yi)些頭部玩家可以(yi)建(jian)立專屬企(qi)業的(de)大(da)模(mo)型(xing),加速(su)構建(jian)新一(yi)代人工智能能力基礎設施,然(ran)后構建(jian)不同的(de)大(da)模(mo)型(xing)應用。中小企(qi)業可以(yi)從(cong)試(shi)點場景出發,找到大(da)模(mo)型(xing)落地應用的(de)真實價值后,再進行廣泛(fan)應用。

正如此前提到的,智能客服等場(chang)景對于大(da)模(mo)型價(jia)值(zhi)的體現更為快速且直接(jie),因此傳統產業在驗證大(da)模(mo)型市場(chang)價(jia)值(zhi)初期(qi),也(ye)可以從這一場(chang)景切入。

以國家(jia)電(dian)(dian)網為例,其在(zai)大規模復(fu)雜電(dian)(dian)網系統管理運營方面(mian)面(mian)臨(lin)電(dian)(dian)網設備(bei)數量多、關鍵設備(bei)運行缺陷(xian)需快速發現響應。結合文心大模型,百(bai)度打造了電(dian)(dian)網智能分(fen)析與智能應用平(ping)臺,并訓練了電(dian)(dian)力(li)行業(ye)(ye)NLP大模型,在(zai)電(dian)(dian)力(li)專(zhuan)業(ye)(ye)分(fen)詞任(ren)務(wu)上(shang),F1(精確率和召回率的調和平(ping)均數)指標達(da)到92.376%。

值得注意的(de)是,大(da)模(mo)型(xing)在(zai)加速各(ge)(ge)行(xing)各(ge)(ge)業轉型(xing)升級(ji)、降本增(zeng)效的(de)同時(shi),這些典(dian)型(xing)案例也體現出目(mu)前國內大(da)模(mo)型(xing)在(zai)應用落地(di)方面仍面臨諸多(duo)挑(tiao)戰,如算力(li)資源持續供應、高(gao)質(zhi)量數據、大(da)模(mo)型(xing)“幻覺”問(wen)題、“蹭熱度”以及同質(zhi)化等。

三、打造公共算力平臺、中文互聯網語料庫,搶灘大模型應用

大模型發展與算(suan)力、算(suan)法、數據密切相關。其中,訓(xun)練數據的數量、質量等是大模型智能水平的關鍵因素。

北京智源人工智能研究院(yuan)副(fu)院(yuan)長兼(jian)總(zong)工程師林(lin)詠華談道,目前(qian)大型(xing)語言模型(xing)、多模態大模型(xing)中(zhong)(zhong)(zhong)使用(yong)的開(kai)源數據集多來自海外(wai),中(zhong)(zhong)(zhong)文(wen)部分(fen)較(jiao)少,如Common Crawl中(zhong)(zhong)(zhong)中(zhong)(zhong)(zhong)文(wen)數據占比不(bu)到5%,且(qie)(qie)其(qi)中(zhong)(zhong)(zhong)超80%為海外(wai)網(wang)站,因此(ci)這些(xie)數據在訓練大模型(xing)時會(hui)有英(ying)文(wen)思維,并且(qie)(qie)存(cun)在內容安(an)全(quan)風險。

北京大模型應用再加碼!發創新應用白皮書、點亮公共算力平臺、首期中文互聯網語料庫CCI亮相

在(zai)大(da)會(hui)的(de)“大(da)模型創(chuang)新論壇(tan)”上(shang),北京(jing)智源人工(gong)智能(neng)研(yan)究院(yuan)發布了(le)“中文(wen)互(hu)聯網語料庫(ku)(CCI)”。該語料庫(ku)是在(zai)中國網絡空(kong)間安(an)全協會(hui)人工(gong)智能(neng)安(an)全治(zhi)理專業委(wei)員會(hui)數據集工(gong)作組、北京(jing)市委(wei)網信辦、北京(jing)市科(ke)委(wei)中關村管委(wei)會(hui)、海淀區(qu)政府的(de)指導下,由智源研(yan)究院(yuan)聯合拓爾(er)思(si)、中科(ke)聞歌共(gong)建,旨在(zai)為國內大(da)數據及人工(gong)智能(neng)行業提供一個安(an)全、可靠的(de)語料資源,并以此為契機促進(jin)不同機構合作,共(gong)同推(tui)動(dong)大(da)數據和(he)人工(gong)智能(neng)領域(yu)的(de)健康發展。

該語料庫首期開放的數據(CCI v1.0.0)規模為104GB,數據集總體的時間跨度為2001年1月至2023年11月

北京大模型應用再加碼!發創新應用白皮書、點亮公共算力平臺、首期中文互聯網語料庫CCI亮相

目前CCI語料庫(ku)首期開放的(de)104GB數(shu)(shu)據,包括智源研究院400GB“悟道”數(shu)(shu)據集、拓爾(er)思貢(gong)獻(xian)(xian)的(de)250GB數(shu)(shu)據集、中科聞歌貢(gong)獻(xian)(xian)的(de)200GB數(shu)(shu)據集。

為了保證數據質量,智源研究院會對上述數據基于合規站源數據進行高質量(liang)數據清洗、去重,同時為了避免數據集混雜測試數據,他們會把可能存在的主流(liu)評測(ce)數(shu)據進行過濾

北京大模型應用再加碼!發創新應用白皮書、點亮公共算力平臺、首期中文互聯網語料庫CCI亮相

從(cong)今年(nian)4月到(dao)10月,國家網信(xin)辦(ban)發布(bu)的《生成式人(ren)工智(zhi)(zhi)能服(fu)務(wu)管理辦(ban)法(fa)(征(zheng)求意見稿)》、以及(ji)國家網信(xin)等(deng)七部門聯合發布(bu)的《生成式人(ren)工智(zhi)(zhi)能服(fu)務(wu)管理暫行辦(ban)法(fa)》等(deng)都強調了數(shu)據(ju)真實、安(an)全等(deng)。

今年10月,中(zhong)國網(wang)絡空間安全協會(hui)設立了人工智能安全治(zhi)理專業(ye)委員(yuan)會(hui),下設數據(ju)工作組,其目的在(zai)于聯(lian)手(shou)國內數據(ju)、互聯(lian)網(wang)、大模(mo)型(xing)等企業(ye),推動中(zhong)文語料庫的建設。

林詠華談道,構建高質量的中文語料庫主要有三個階段,首先是建設中文互聯網語料庫(ku),這是一個長期持(chi)續(xu)的過(guo)程,本(ben)次發布的中(zhong)文互聯(lian)網(wang)語(yu)料庫,其數據主要來源為(wei)地市級以上政府門(men)戶網(wang)站(zhan)、重點新(xin)聞網(wang)站(zhan)、中(zhong)央和地方報刊等。

第二個階段就是建設綜(zong)合數據集,其囊括的數(shu)據(ju)范圍(wei)也更加廣(guang)泛,包括科技類(lei)、媒體(ti)類(lei)、書籍期(qi)刊等(deng)文字、圖片(pian)、視頻等(deng)數(shu)據(ju)。

第三個階段就是建設行業數(shu)據(ju)集(ji),針(zhen)對不同行業的(de)應用需求(qiu),打造(zao)面(mian)向(xiang)金(jin)融(rong)、醫療等領(ling)域的(de)數(shu)據(ju)集(ji)。

北京大模型應用再加碼!發創新應用白皮書、點亮公共算力平臺、首期中文互聯網語料庫CCI亮相

為推動“中文互聯網語料庫CCI”的廣泛使用,吸引國內大模型領域研究機構、企業共建、共享高質量、多樣化、安全合規的中文語料庫,會上,智源研究院聯合17家大模型機構和企業共同發起《“中文互聯網語料庫”共建共享倡議(yi)書》,倡導堅持(chi)合(he)(he)作共享、安全合(he)(he)規、數據(ju)高質量等6項原則,持(chi)續(xu)推動人(ren)工智能產業(ye)健(jian)康持(chi)續(xu)發展(zhan)。

在商業落地背后,算力基礎設施是支撐人工智能產業發展的堅實底座。北京市海淀區的北京人工智能公共算力平臺舉行了點亮儀式,同時,北(bei)京(jing)電(dian)信作(zuo)為算力平臺代(dai)表(biao)與智譜華章、紫東(dong)太初(chu)等首批入(ru)駐大模型企業(ye)完成了(le)簽約儀(yi)式。

北京大模型應用再加碼!發創新應用白皮書、點亮公共算力平臺、首期中文互聯網語料庫CCI亮相

結語:開啟大模型應用落地新階段

如今,大模型(xing)的技術創(chuang)新(xin)升級與商業落地正(zheng)穩步推進,作為(wei)國內(nei)在大模型(xing)領域(yu)具有一(yi)定(ding)(ding)資源優勢(shi)、先發優勢(shi)的城市(shi),北京市(shi)已經錨定(ding)(ding)大模型(xing)下一(yi)階段發展的核心及持續性痛點(dian),通過(guo)算力基(ji)礎設施、中(zhong)文互(hu)聯(lian)網(wang)語(yu)料庫、應(ying)用創(chuang)新(xin)等,為(wei)國內(nei)大模型(xing)產業發展筑起堅實的底(di)座。

《白皮(pi)書》提到,北(bei)京市(shi)(shi)將進一步培育大(da)模(mo)型(xing)產(chan)業(ye)(ye)生態,將人才、資金(jin)、產(chan)業(ye)(ye)生態等方面與大(da)模(mo)型(xing)產(chan)業(ye)(ye)發(fa)展結合的(de)更(geng)為緊(jin)密(mi);在(zai)算力(li)方面,北(bei)京市(shi)(shi)也(ye)(ye)通(tong)過算力(li)券、資金(jin)補(bu)貼(tie)等為企(qi)業(ye)(ye)提供支撐;在(zai)行業(ye)(ye)落地(di)角度(du),北(bei)京市(shi)(shi)還通(tong)過行業(ye)(ye)大(da)模(mo)型(xing)創新應用(yong)大(da)賽,為企(qi)業(ye)(ye)探索大(da)模(mo)型(xing)實際落地(di)場景提供機會;同時,在(zai)大(da)模(mo)型(xing)應用(yong)監管方面,北(bei)京市(shi)(shi)也(ye)(ye)提供了圍繞(rao)大(da)模(mo)型(xing)底層(ceng)設施、關鍵(jian)技(ji)術、上層(ceng)應用(yong)的(de)標(biao)準體系。

大模型(xing)產業發展至(zhi)今,企業對于大規模商(shang)業落地的探索加快,可以看出,北京市(shi)已經形成了從算力、數據(ju)、應用三個角度出發,圍繞軟硬件基礎設施、關鍵(jian)技術、應用落地等重(zhong)點為這一(yi)產業打造了一(yi)系(xi)列支撐,大模型(xing)正重(zhong)塑千行百業。