智東西(公眾號:zhidxcom)
作者 |?徐珊
編輯 | 云鵬

智東(dong)西(xi)11月16日(ri)報道(dao),昨日(ri),騰(teng)(teng)訊在其技術開(kai)放(fang)日(ri)舉辦了(le)AGI時(shi)代的“數(shu)(shu)據(ju)樞紐”騰(teng)(teng)訊云(yun)向(xiang)量數(shu)(shu)據(ju)庫技術&產(chan)業峰會(hui)。在此次大(da)會(hui)上,騰(teng)(teng)訊云(yun)聯(lian)合中國(guo)信通(tong)院聯(lian)合發(fa)布向(xiang)量數(shu)(shu)據(ju)庫標準(zhun)。騰(teng)(teng)訊云(yun)向(xiang)量數(shu)(shu)據(ju)庫成為首家(jia)通(tong)過信通(tong)院的向(xiang)量庫標準(zhun)測試的向(xiang)量數(shu)(shu)據(ju)庫,最高(gao)支持千億級向(xiang)量規模和500萬(wan)QPS峰值能力。

向量(liang)(liang)(liang)是AI理解世界(jie)的(de)(de)通用數(shu)(shu)據形勢,是多模態數(shu)(shu)據庫的(de)(de)壓(ya)縮。向量(liang)(liang)(liang)數(shu)(shu)據則(ze)是由數(shu)(shu)值向量(liang)(liang)(liang)組成的(de)(de)數(shu)(shu)據集合,向量(liang)(liang)(liang)數(shu)(shu)據庫是以向量(liang)(liang)(liang)嵌(qian)入式存儲和管理向量(liang)(liang)(liang)數(shu)(shu)據的(de)(de)數(shu)(shu)據庫,其主(zhu)要的(de)(de)來自于對文(wen)本、語音、圖像、視(shi)屏等非結構(gou)化數(shu)(shu)據,提供向量(liang)(liang)(liang)化的(de)(de)功能(neng)。

“向量(liang)數(shu)(shu)據(ju)庫(ku)不僅(jin)是(shi)支撐大(da)模(mo)型的(de)重(zhong)要基(ji)礎設施,也(ye)正在(zai)成(cheng)為(wei)企業(ye)以數(shu)(shu)據(ju)驅動(dong)打(da)造未來競爭(zheng)力的(de)重(zhong)要一環。”騰訊集團高級執行副總裁(cai)、騰訊云與智慧產業(ye)事業(ye)群(qun)CEO湯道(dao)生(sheng)說(shuo)道(dao)。他(ta)認為(wei),目(mu)前企業(ye)數(shu)(shu)據(ju)庫(ku)內80%的(de)數(shu)(shu)據(ju)都是(shi)非結構化的(de)數(shu)(shu)據(ju),向量(liang)數(shu)(shu)據(ju)可(ke)以讓AI直接解讀(du)語(yu)音、視頻等多模(mo)態的(de)數(shu)(shu)據(ju)。

據(ju)騰(teng)(teng)訊云(yun)數據(ju)庫副(fu)總經理(li)羅云(yun)介紹,目(mu)前騰(teng)(teng)訊云(yun)向量數據(ju)庫已(yi)經累積(ji)服務(wu)了騰(teng)(teng)訊內部40多個業務(wu),日請求量達1600億次,服務(wu)了包括博世、銷(xiao)售易、搜狐、好未來、鏈家等在內的超(chao)過1000家外(wai)部客戶。

此(ci)外(wai),騰訊云(yun)(yun)向(xiang)量數(shu)據庫(ku)和百川(chuan)智能聯合(he)(he)發布的“AGI啟航計劃”也(ye)正式啟動,向(xiang)量數(shu)據庫(ku)免(mian)費實(shi)例及Baichuan2 400萬免(mian)費Tokens將限量開放領取,助力用戶快(kuai)速(su)搭(da)建(jian)RAG應用。同時,騰訊云(yun)(yun)還與硬(ying)件廠(chang)(chang)商、大模型(xing)廠(chang)(chang)商、行業代表等聯合(he)(he)成立了“AGI技(ji)術生態聯盟”。

國內首個向量數據庫標準亮相,日處理1600億請求,對話騰訊云向量數據庫高管羅云

一、騰訊集團高級執行副總裁湯道生:向量數據庫比傳統數據庫的檢索規模提升數百倍

“向量數(shu)據(ju)庫可以成為大模(mo)(mo)型(xing)(xing)的(de)(de)外部(bu)知識庫,給大模(mo)(mo)型(xing)(xing)輸入(ru)最新(xin),最全面,最有(you)(you)效(xiao)的(de)(de)信息(xi),讓大模(mo)(mo)型(xing)(xing)擁有(you)(you)長記憶,避(bi)免聊天時(shi)的(de)(de)斷線,是大模(mo)(mo)型(xing)(xing)的(de)(de)最佳拍檔(dang)。”湯道生通(tong)過視頻(pin)說道。他認(ren)為,AI驅動產業(ye)數(shu)據(ju)變(bian)動的(de)(de)時(shi)代(dai)正(zheng)在(zai)到(dao)來,向量數(shu)據(ju)庫正(zheng)在(zai)成為數(shu)據(ju)的(de)(de)樞紐。

國內首個向量數據庫標準亮相,日處理1600億請求,對話騰訊云向量數據庫高管羅云

據(ju)他(ta)介紹,早在2019年,騰(teng)訊云向量數據(ju)庫(ku)已(yi)經接(jie)入了QQ瀏覽器(qi)等多業務場景(jing),每天處理(li)超過1600億次的請求。在向量檢(jian)索幫助下(xia),QQ瀏覽器(qi)檢(jian)索成本38%,QQ音樂的技術支持也較(jiao)大(da)提升。

今年(nian)8月,騰訊云正(zheng)式推出向量(liang)數(shu)據庫,如今,騰訊云向量(liang)數(shu)據庫也(ye)成為首個通(tong)過信通(tong)院標(biao)準測試(shi)的廠商,該向量(liang)庫擁有(you)千(qian)億級的向量(liang)規模,比傳統數(shu)據庫的檢索規模提升數(shu)百倍。

湯道生認(ren)為,數(shu)(shu)據在(zai)大模型的向(xiang)量(liang)數(shu)(shu)據庫實現了智能計算、智能存儲,大幅降低客戶(hu)(hu)的應(ying)用(yong)門(men)檻和成(cheng)本(ben)。不少用(yong)戶(hu)(hu)基于騰訊(xun)云向(xiang)量(liang)數(shu)(shu)據庫打造相應(ying)的應(ying)用(yong),讓用(yong)戶(hu)(hu)在(zai)模糊的提示詞(ci)下,也(ye)可以準確的找到(dao)答案(an),幫助客戶(hu)(hu)節省80%的人工客服成(cheng)本(ben)。

二、騰訊云副總裁陳平:國內擁有130個大模型,向量數據庫是AGI時代大模型的最佳拍檔

“向量數據庫已經被業內(nei)公(gong)認大(da)模型(xing)時代(dai)的(de)(de)數據樞(shu)紐,因此其建設也尤為(wei)重要。”騰訊(xun)云副總(zong)裁陳平談到(dao)在新(xin)的(de)(de)時代(dai),AI行業將(jiang)會改變(bian)千(qian)行百業,傳統(tong)行業需(xu)要及(ji)時調整自己的(de)(de)生產方式(shi),以(yi)跟上(shang)新(xin)的(de)(de)時代(dai)。

國內首個向量數據庫標準亮相,日處理1600億請求,對話騰訊云向量數據庫高管羅云

同時,在新(xin)興(xing)數據技術(shu)集成(cheng)上,移動互(hu)聯網、泛互(hu)聯網等(deng)數據正呈現指數級成(cheng)長,傳統處(chu)理(li)數據的能(neng)力(li)帶來壓(ya)力(li),更高效的數據存(cun)儲需(xu)要更智能(neng)存(cun)儲、梳(shu)理(li)等(deng)。他認為,向量數據庫是AGI時代(dai)大模型的最佳拍檔。

企業(ye)需(xu)(xu)要將數據(ju)采集和存儲(chu),更多利(li)用大模(mo)型(xing)的(de)數據(ju)和存儲(chu)。在數據(ju)采集層,騰訊計(ji)劃部署各種AI芯片,提(ti)供(gong)(gong)穩定的(de)服務性能,為(wei)各種各樣的(de)AI廠(chang)商(shang)提(ti)供(gong)(gong)服務。在模(mo)型(xing)層,據(ju)他統計(ji),中國已(yi)經有130個(ge)大模(mo)型(xing),接(jie)下來需(xu)(xu)要廠(chang)商(shang)將大模(mo)型(xing)沉淀到各個(ge)產業(ye)中。大模(mo)型(xing)的(de)應用并不完全(quan)看(kan)算力,也看(kan)生態合(he)作(zuo)。而應用層,AGI應用需(xu)(xu)要投入到真實(shi)環節,也是其實(shi)現(xian)價值最重要的(de)一(yi)環。

在2018年左右(you),由于自(zi)身業務(wu)的需要,騰訊云就已經開始(shi)打(da)磨向量(liang)數據庫,如今已經成(cheng)(cheng)為較為成(cheng)(cheng)熟體系。“騰訊云積(ji)極(ji)參(can)與(yu)向量(liang)數據庫相關(guan)標(biao)準制(zhi)定,并通過搭建AGI技術(shu)生態(tai)聯(lian)盟,與(yu)上下(xia)游伙(huo)伴一道,加強產業合作,打(da)造更多的行業解決方案,加速大模型落地(di)。”陳平說道。

三、中國信通院人工智能創新中心負責人魏凱:國內數據庫仍以關系型為主

中(zhong)國數(shu)(shu)據(ju)(ju)庫(ku)產業開始于(yu)20世(shi)紀末,并在2013年后(hou)(hou)迎(ying)來新的(de)繁(fan)榮(rong)發(fa)展(zhan),在2020年后(hou)(hou),中(zhong)國數(shu)(shu)據(ju)(ju)庫(ku)迎(ying)來的(de)真正的(de)爆發(fa)。“數(shu)(shu)據(ju)(ju)庫(ku)是(shi)一個生命力比較頑強的(de)產業,幾(ji)乎每幾(ji)年都有一個熱點。在全球數(shu)(shu)據(ju)(ju)庫(ku)第二波爆發(fa)階段(duan),中(zhong)國趕上了浪潮。”中(zhong)國信通院人工智(zhi)能創新中(zhong)心負責人、云(yun)計算(suan)與大數(shu)(shu)據(ju)(ju)研(yan)究所(suo)副所(suo)長魏凱(kai)說道。

數據庫上(shang)云(yun)成為(wei)當今(jin)產業(ye)行業(ye)重要的趨勢(shi),2022年,國內的公有云(yun)市場首次(ci)超過了(le)私有云(yun),市場份額超過一半(ban)。

向(xiang)(xiang)量數(shu)據(ju)庫(ku)(ku)(ku)(ku)是存儲檢(jian)索、多維度向(xiang)(xiang)量最關鍵的(de)(de)數(shu)據(ju)庫(ku)(ku)(ku)(ku)。向(xiang)(xiang)量數(shu)據(ju)庫(ku)(ku)(ku)(ku)與大模型(xing)的(de)(de)結(jie)合,成為其(qi)當下的(de)(de)產(chan)業熱門。向(xiang)(xiang)量數(shu)據(ju)庫(ku)(ku)(ku)(ku)與傳統(tong)數(shu)據(ju)庫(ku)(ku)(ku)(ku)會協同發展、相互補充。向(xiang)(xiang)量數(shu)據(ju)庫(ku)(ku)(ku)(ku)將會通(tong)過(guo)數(shu)據(ju)的(de)(de)向(xiang)(xiang)量化來滿足特定(ding)需求,尤其(qi)是傳統(tong)關系(xi)型(xing)數(shu)據(ju)庫(ku)(ku)(ku)(ku)難(nan)以處理的(de)(de)大規模數(shu)據(ju)。

國內首個向量數據庫標準亮相,日處理1600億請求,對話騰訊云向量數據庫高管羅云

目前,全球數(shu)據(ju)庫(ku)產(chan)品數(shu)量整體(ti)分布呈(cheng)現以非關(guan)(guan)(guan)系(xi)型(xing)數(shu)據(ju)為主。但國(guo)內(nei)卻出現關(guan)(guan)(guan)系(xi)型(xing)數(shu)據(ju)庫(ku)的發展超過非關(guan)(guan)(guan)系(xi)型(xing)數(shu)據(ju)庫(ku)的現象。從創新看,非關(guan)(guan)(guan)系(xi)型(xing)數(shu)據(ju)是熱點,我(wo)國(guo)創新實力不(bu)斷增強(qiang)。而從標準(zhun)上看,行業(ye)組織正(zheng)逐步(bu)推動我(wo)國(guo)標準(zhun)體(ti)系(xi)完善。從模式來看,開(kai)(kai)源模式在全球范圍(wei)內(nei)發展勢頭(tou)較(jiao)猛,目前,我(wo)國(guo)國(guo)內(nei)的開(kai)(kai)源數(shu)據(ju)庫(ku)共有42款,開(kai)(kai)源數(shu)據(ju)庫(ku)中(zhong)69%為關(guan)(guan)(guan)系(xi)型(xing)數(shu)據(ju)庫(ku)。

他提到目前向量數據(ju)庫的核心技(ji)術有(you)Embedding技(ji)術、向量索引技(ji)術、分布(bu)式系統架構、硬件加速技(ji)術等。向量數據(ju)庫可以在(zai)文本(ben)、圖(tu)像、視頻(pin)、生物制藥等多場景(jing)中,發揮其創(chuang)造性(xing),提供(gong)豐富的應(ying)用。

四、對話騰訊云向量數據庫負責人羅云:智能化數據平臺的數據要可流通、可對話

隨著AI的發(fa)展,整個計算機科(ke)學行業的底層基礎設(she)施將會構(gou)建全新的方式(shi)。

“AGI時代(dai)大(da)模型是(shi)提(ti)供算(suan)力、調度的(de)智能平臺,向(xiang)量數(shu)據庫就是(shi)這個智能化的(de)數(shu)據的(de)調度平臺的(de)中樞”騰訊(xun)云創始團隊成員(yuan)、騰訊(xun)云數(shu)據庫副總經(jing)理兼向(xiang)量數(shu)據庫負責(ze)人羅(luo)云認為(wei),大(da)模型的(de)本質是(shi)帶有智能計(ji)算(suan)的(de)計(ji)算(suan)平臺,將會將人們(men)(men)所接(jie)觸(chu)編程語(yu)言才可以觸(chu)達的(de)計(ji)算(suan)體(ti),轉換成人們(men)(men)自(zi)然(ran)語(yu)言就可以接(jie)觸(chu)的(de)計(ji)算(suan)體(ti)。

他認為AGI時代(dai),智能(neng)化數(shu)據(ju)(ju)平臺將會(hui)存(cun)在兩大特點,第(di)一、底層數(shu)據(ju)(ju)化數(shu)據(ju)(ju)將要可以通過(guo)智能(neng)化的(de)方式流通;第(di)二(er)則是(shi),能(neng)夠和數(shu)據(ju)(ju)庫(ku)對話。因此,在AGI時代(dai),向(xiang)量數(shu)據(ju)(ju)庫(ku)是(shi)數(shu)據(ju)(ju)的(de)中樞。通過(guo)向(xiang)量這樣中間模式,將會(hui)磨平了數(shu)據(ju)(ju)之間的(de)差異。

在會后的(de)采訪環節,羅云提到向(xiang)量是一(yi)(yi)種(zhong)通(tong)(tong)用(yong)的(de)人工智(zhi)能背后的(de)數(shu)(shu)(shu)(shu)據(ju)(ju)格式(shi)(shi),它可能是需要(yao)橋(qiao)接關鍵數(shu)(shu)(shu)(shu)據(ju)(ju)庫、非關鍵數(shu)(shu)(shu)(shu)據(ju)(ju)庫、對象(xiang)存(cun)儲、文件(jian)存(cun)儲所有(you)(you)的(de)各(ge)式(shi)(shi)各(ge)樣(yang)結構的(de)數(shu)(shu)(shu)(shu)據(ju)(ju),把(ba)這些數(shu)(shu)(shu)(shu)據(ju)(ju)集中化放在一(yi)(yi)個數(shu)(shu)(shu)(shu)據(ju)(ju)管(guan)理平臺上(shang)。而傳統的(de)插件(jian)式(shi)(shi)向(xiang)量數(shu)(shu)(shu)(shu)據(ju)(ju)庫相比,很難(nan)讓某一(yi)(yi)個數(shu)(shu)(shu)(shu)據(ju)(ju)庫的(de)插件(jian)支持到其他的(de)格式(shi)(shi)。“向(xiang)量數(shu)(shu)(shu)(shu)據(ju)(ju)庫會成為智(zhi)能化AI的(de)一(yi)(yi)個索(suo)引(yin)層(ceng),它會把(ba)底層(ceng)所有(you)(you)的(de)數(shu)(shu)(shu)(shu)據(ju)(ju)都智(zhi)能化的(de)管(guan)理起來,讓人類通(tong)(tong)過自然(ran)語言,通(tong)(tong)過向(xiang)量去(qu)做交互。”他補充(chong)道。

國內首個向量數據庫標準亮相,日處理1600億請求,對話騰訊云向量數據庫高管羅云▲中間為騰訊(xun)云創始(shi)團隊成(cheng)員、騰訊(xun)云數(shu)據(ju)庫副總經(jing)理兼向量數(shu)據(ju)庫負責人羅云

AGI時代的(de)數(shu)據(ju)(ju)中(zhong)樞及(ji)既(ji)要(yao)(yao)有(you)傳統(tong)數(shu)據(ju)(ju)路的(de)企業級能(neng)(neng)力(li),更需(xu)(xu)要(yao)(yao)智(zhi)能(neng)(neng)化升級。向(xiang)量數(shu)據(ju)(ju)庫需(xu)(xu)要(yao)(yao)在(zai)可(ke)用性、分布式、性能(neng)(neng)、可(ke)靠(kao)性等(deng)六大能(neng)(neng)力(li)方面,擁有(you)新的(de)要(yao)(yao)求,實(shi)現計算智(zhi)能(neng)(neng)化、存(cun)儲智(zhi)能(neng)(neng)化、接口智(zhi)能(neng)(neng)化。

為了(le)加速向(xiang)量數據(ju)庫在企業的(de)大規模(mo)應用,騰訊(xun)云還推出了(le)國內“首個”端(duan)(duan)(duan)到端(duan)(duan)(duan)的(de)向(xiang)量數據(ju)庫解決方案,通過文本智(zhi)能化(hua)分割(ge)、選擇(ze)向(xiang)量化(hua)模(mo)型、幫助客戶建立索引(yin),再經智(zhi)能化(hua)排序實現(xian)端(duan)(duan)(duan)到端(duan)(duan)(duan)的(de)數據(ju)接(jie)入體驗。將端(duan)(duan)(duan)到端(duan)(duan)(duan)召回率(lv)提高30%,縮(suo)短(duan)數據(ju)接(jie)入AI的(de)時間。

現階段(duan),騰訊云已(yi)經(jing)接(jie)入(ru)了百余項(xiang)項(xiang)目(mu),同時(shi),騰訊已(yi)經(jing)外(wai)部接(jie)入(ru)了千余家(jia)企業(ye)(ye)(ye)。例如,在(zai)SaaS領域,幫助企業(ye)(ye)(ye)客戶快(kuai)速(su)構建私域知(zhi)識庫(ku)、智能客服系統;在(zai)電(dian)商行業(ye)(ye)(ye),使用(yong)向(xiang)量數據庫(ku)來提升推薦、搜索、廣告(gao)業(ye)(ye)(ye)務的推薦效果;在(zai)出行行業(ye)(ye)(ye),使用(yong)向(xiang)量數據庫(ku)來加速(su)自動駕駛模(mo)型訓練,此外(wai),在(zai)教育行業(ye)(ye)(ye)以(yi)及文創等行業(ye)(ye)(ye)也有廣泛應用(yong)。

在(zai)(zai)(zai)(zai)產業創新方(fang)向上,他提到不少在(zai)(zai)(zai)(zai)向量(liang)(liang)數據(ju)(ju)(ju)庫(ku)廠商(shang)發力的點集中在(zai)(zai)(zai)(zai)在(zai)(zai)(zai)(zai)成本層的一(yi)些(xie)調優,且想(xiang)要去做(zuo)AI Native,AI原生的把智(zhi)能化的東西做(zuo)成一(yi)站式的向量(liang)(liang)數據(ju)(ju)(ju)庫(ku)。客戶在(zai)(zai)(zai)(zai)向量(liang)(liang)數據(ju)(ju)(ju)庫(ku)的采購方(fang)面也并未(wei)卡(ka)在(zai)(zai)(zai)(zai)成本環節,更多(duo)在(zai)(zai)(zai)(zai)思考(kao)怎么樣把自己的行業know-how和AI的整個技術站打通起(qi)來。

對于(yu)向量數據庫的(de)版(ban)本迭代節奏,羅云計劃在(zai)未來的(de)一年時(shi)間內(nei)可(ke)能(neng)會(hui)(hui)把向量數據庫升級的(de)節奏控制在(zai)三個(ge)(ge)月到六個(ge)(ge)月會(hui)(hui)有一個(ge)(ge)大的(de)版(ban)本,再(zai)往后會(hui)(hui)隨著AI的(de)進展再(zai)去看(kan)。

結語:騰訊云加速向量數據庫大規模應用

向(xiang)量數據庫正(zheng)在成為當下大模型熱潮中(zhong)底(di)層技術(shu)突破(po)重點。通過向(xiang)量的(de)(de)方式存儲各(ge)式各(ge)樣的(de)(de)數據,能夠讓(rang)大模型更(geng)快、更(geng)自然的(de)(de)理解相應的(de)(de)數據內容,從而給出更(geng)準確(que)、合適的(de)(de)內容,幫助企業提(ti)高(gao)生產效率。

目前,我國的數據庫正呈多樣、豐富化的組合方式。騰訊云和信通院一起聯合50多家企業共同發(fa)布了國內首(shou)個向(xiang)量數(shu)據庫(ku)標(biao)準,推(tui)進向(xiang)量數(shu)據庫(ku)及大模型(xing)相關(guan)產業走向(xiang)大規模應(ying)用。