智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 漠影

生成(cheng)式AI時代(dai)究竟該如何構(gou)建數據庫(ku)?

智東西5月20日報道,剛剛過去的周六,OceanBase 2025開發者大會上,我們找到了這家數據(ju)庫廠商(shang)的答案——一體(ti)化數據(ju)底座。

OceanBase CEO楊(yang)冰說:“一體化數(shu)據底座指的(de)是希望(wang)通過(guo)一體化產(chan)品、一體化引擎,同時(shi)處理OLTP、OLAP以及AI的(de)混合負載。”

他們(men)想要(yao)最終解(jie)決的難題(ti)就(jiu)是(shi)AI的大爆(bao)發時代,數據庫應(ying)當如何更好地存儲(chu)、處理(li)數據,從而更好地適應(ying)新時代需要(yao),謀求更長遠發展。

當下,企(qi)業的數據(ju)(ju)存儲與(yu)處(chu)(chu)理(li)(li)正(zheng)面(mian)臨前所未有的挑(tiao)戰。一方面(mian),大模型訓練、實時推(tui)理(li)(li)等場景(jing)產生的海(hai)量異(yi)構數據(ju)(ju),要求(qiu)存儲系統(tong)具備極高(gao)的容量彈性與(yu)跨模態管(guan)理(li)(li)能(neng)力;另(ling)一方面(mian),數據(ju)(ju)處(chu)(chu)理(li)(li)需兼顧事務(wu)(wu)處(chu)(chu)理(li)(li)的實時性、分析決策(ce)的高(gao)效性及AI任(ren)務(wu)(wu)的復雜計算需求(qiu)。

然而,傳統(tong)數據基礎設施(shi)與生成(cheng)式(shi)AI下的數據需(xu)求割裂(lie),產業亟需(xu)能整(zheng)合(he)多(duo)模態數據處理、海量數據處理等特征,并深度融合(he)AI能力的新型數據底座。

在(zai)此(ci)背景(jing)下,國(guo)產數(shu)據(ju)庫的(de)主力玩(wan)家OceanBase,已經在(zai)數(shu)據(ju)庫轉型之路上率(lv)先突圍:宣布全面(mian)擁抱AI,打造(zao)“Data×AI”核心能(neng)力、啟動人才和組(zu)織體(ti)系升級,并圍繞(rao)一體(ti)化數(shu)據(ju)底(di)座為(wei)核心發布首款(kuan)面(mian)向(xiang)AI的(de)應(ying)用產品PowerRAG。

AGI時代,數據庫廠商如何破局

開發者大會同天,智東西等(deng)媒體與OceanBase CEO楊冰(bing)、CTO楊傳(chuan)輝進行(xing)了深入(ru)交流(liu),試圖探尋這家數據(ju)庫主(zhu)力(li)廠(chang)商在AI時代的核心(xin)競爭力(li)。

一、從Data Infra向Data×AI Infra躍遷,數據在AI時代的角色將如何重塑?

數(shu)據的(de)特征(zheng)會直接影響模型(xing)的(de)性能、泛化(hua)能力和應用效果(guo),但伴隨著AI的(de)發展,數(shu)據衍生出一系列亟待突破的(de)全(quan)新挑戰。螞蟻集團CTO何(he)征(zheng)宇提到了四(si)大(da)挑戰。

作為(wei)大模型訓練(lian)基石的(de)互聯網公開數(shu)據(ju)(ju)即將枯竭,未來獲(huo)取高質量(liang)數(shu)據(ju)(ju)的(de)成本將逐步攀升(sheng)。

嚴(yan)(yan)謹的行業數(shu)據稀(xi)缺且流動困難,存在三(san)重特征:數(shu)字化進程滯后、數(shu)據質(zhi)量要求嚴(yan)(yan)苛、核心數(shu)字化知識沉淀不足。

AGI時代,數據庫廠商如何破局

多(duo)模態數(shu)據(ju)需要更(geng)強處理能力。未來越來越多(duo)的(de)數(shu)據(ju)需要包含視覺(jue)、觸覺(jue)、本體感(gan)覺(jue)和音頻等諸多(duo)信息。

數(shu)據(ju)的質(zhi)量(liang)評(ping)(ping)估難。評(ping)(ping)估的質(zhi)量(liang)決定模(mo)型質(zhi)量(liang),但現有數(shu)據(ju)與模(mo)型質(zhi)量(liang)評(ping)(ping)估方式(shi),難以指導(dao)大模(mo)型訓練擺脫“訓模(mo)如煉丹”的窘境。

對于數(shu)據(ju)的(de)(de)重(zhong)要性,何征宇一針見血指出:“數(shu)據(ju)的(de)(de)邊界決(jue)定了大模(mo)型的(de)(de)能力上限,所(suo)有的(de)(de)數(shu)據(ju)公(gong)司都將(jiang)成為AI公(gong)司。”

與此同時,數(shu)據量的(de)增(zeng)長仍在(zai)突飛猛(meng)進。IDC預測到2028年(nian),受生成式AI等(deng)技術驅動,全(quan)球新生成數(shu)據量規模(mo)(mo)將達到393.9ZB,其(qi)中企業數(shu)據規模(mo)(mo)和增(zeng)速(su)尤為凸顯,全(quan)球企業級數(shu)據的(de)數(shu)據量較2023年(nian)整體增(zeng)長在(zai)400%以上。

AGI時代,數據庫廠商如何破局

可(ke)以看到(dao),數據(ju)在AI時代的角色正(zheng)在被(bei)重(zhong)塑。正(zheng)如(ru)楊冰所說,如(ru)今數據(ju)基礎(chu)設施不僅要實現(xian)“物理變化(hua)”,如(ru)支撐海量數據(ju)存儲、可(ke)擴(kuo)展性等突(tu)破存儲、計算的瓶頸,還要發生(sheng)“化(hua)學變化(hua)”,如(ru)支持知識的學習、獲取(qu),支持應用的推(tui)理以及(ji)決策。

因此,AI正驅動數據基礎設施Data Infra向“數據×AI”的(de)融(rong)合架構Data×AI Infra躍遷。

在(zai)生成(cheng)(cheng)式(shi)AI應用爆發之(zhi)際,傳統的(de)數(shu)據基(ji)(ji)礎設施的(de)轉型顯得更為急迫。IDC軟件市場研究經理李凌(ling)霄提到,數(shu)據基(ji)(ji)礎設施目前的(de)負載割裂(lie)、云環境割裂(lie)、多模態割裂(lie)、技術債務正阻礙生成(cheng)(cheng)式(shi)AI落地。

傳(chuan)統(tong)TP+AP環境會造成長(chang)數(shu)(shu)據鏈條(tiao)資(zi)源(yuan)消耗、負載需求,無(wu)法在生成式AI場景(jing)下擁有實(shi)時支(zhi)撐能(neng)力(li)以及(ji)充分的(de)計算資(zi)源(yuan);同時企(qi)(qi)業在不同云平臺間的(de)數(shu)(shu)據交互、加工、治(zhi)理割裂;傳(chuan)統(tong)場景(jing)下專庫專用的(de)架(jia)構做異構數(shu)(shu)據間聯合查詢時,會造成性(xing)能(neng)消耗和響應(ying)延遲(chi);企(qi)(qi)業需要在生成式AI時代,保持、延續其此(ci)前基(ji)礎設施架(jia)構的(de)完整。

其中,2023年隨(sui)著大模(mo)型發(fa)展而爆(bao)發(fa)的向量(liang)數據庫,曾因(yin)擅長處理非(fei)結構(gou)化數據被視為企業最大化發(fa)揮(hui)數據價(jia)值(zhi)的關鍵工具,但(dan)如今(jin)其難以獨(du)立解決復雜(za)業務問題的弊端愈發(fa)凸顯(xian)。

諸多(duo)企業實現向(xiang)(xiang)量(liang)融合(he)的方式(shi)是在(zai)現有數(shu)據(ju)基礎(chu)設施之上融合(he)向(xiang)(xiang)量(liang)插件,很少會(hui)(hui)選擇(ze)獨(du)立部署。楊傳輝提到,向(xiang)(xiang)量(liang)數(shu)據(ju)庫(ku)是一個臨時態(tai),因為用戶在(zai)查詢時往往會(hui)(hui)涉及向(xiang)(xiang)量(liang)、標(biao)量(liang)等混合(he)數(shu)據(ju),獨(du)立的向(xiang)(xiang)量(liang)數(shu)據(ju)庫(ku)未(wei)來(lai)會(hui)(hui)被替代。

在大(da)模型(xing)落地行至關鍵機遇期(qi),數(shu)(shu)據(ju)和大(da)模型(xing)能力如(ru)何融合,成(cheng)為(wei)數(shu)(shu)據(ju)庫領(ling)域企業(ye)決(jue)勝AI時代的核心(xin)競(jing)爭力分(fen)水嶺(ling)。深(shen)耕數(shu)(shu)據(ju)庫領(ling)域的OceanBase已經(jing)先行一步,開始探索構(gou)建適配AI時代的數(shu)(shu)據(ju)底(di)座新范式。

二、兩大思路加速一體化數據庫轉型,首發AI產品PowerRAG

擁(yong)抱AI已經(jing)成(cheng)為千行百業共(gong)識,一貫秉持穩扎穩打理念的OceanBase于今年4月(yue)底,宣布全面進入(ru)AI時代(dai)。

彼時,OceanBase CEO楊冰發布(bu)全員信,宣布(bu)要打造“Data×AI”核心能力,加速打造AI時代數(shu)據底座。

具體來看,OceanBase的Data×AI戰略的關鍵是要實(shi)現數據(ju)(ju)與AI的融(rong)合,而(er)一體化數據(ju)(ju)底座(zuo)就是一體化數據(ju)(ju)庫的延伸,其核心仍(reng)然是能(neng)(neng)不(bu)能(neng)(neng)做好數據(ju)(ju)處理。

AGI時代,數據庫廠商如何破局

其背后的考量(liang)一(yi)直(zhi)是(shi)以(yi)用戶需求(qiu)出發(fa)。AI時(shi)代對于數(shu)(shu)據(ju)處理(li)的兩個(ge)顯(xian)著需求(qiu)是(shi):高質量(liang)、海量(liang)數(shu)(shu)據(ju)以(yi)及(ji)混合(he)負載。楊傳輝說,AI應用出現(xian)使得工作負載邊(bian)界逐漸模糊(hu),其無法嚴格區分向量(liang)、標量(liang)數(shu)(shu)據(ju),開(kai)發(fa)者的需求(qiu)也隨之變化:他們希望在一(yi)套(tao)引擎里直(zhi)接通過一(yi)條SQL處理(li)所有工作負載。

這恰恰是OceanBase的核(he)心優勢所(suo)在。OceanBase除了(le)能夠支持(chi)OLTP和OLAP傳統數(shu)據(ju)庫工作(zuo)負載(zai)(zai),還能支持(chi)AI領(ling)域工作(zuo)負載(zai)(zai),如半(ban)結構化(hua)數(shu)據(ju)JSON處理、向量數(shu)據(ju)庫、混(hun)合檢索以及RAG能力(li)等。

從宏觀角(jiao)度來看,這些技術(shu)積(ji)淀(dian)為數據與模型(xing)(xing)的(de)一體化融合提供了(le)基礎(chu),成為大模型(xing)(xing)落地產生價值的(de)關鍵所(suo)在(zai)。

AGI時代,數據庫廠商如何破局

還是(shi)從需求(qiu)出(chu)發(fa),數據和模型實現(xian)融合需要解(jie)決的有兩大問(wen)題(ti):數據處(chu)理和模型本(ben)身(shen)的準確性(xing)、成本(ben)、行(xing)業(ye)適配性(xing)等。在此基礎上(shang),OceanBase進一步將打造“Data×AI”核心能力細化為兩方面(mian)工作(zuo):

一(yi)方面是要將(jiang)數(shu)據融(rong)入(ru)模(mo)型(xing)里,希望通過提高數(shu)據質量(liang)、結構(gou)化程(cheng)度,提升模(mo)型(xing)準確度、推理效(xiao)率,讓(rang)小(xiao)模(mo)型(xing)也(ye)能有大效(xiao)果(guo),同時(shi)降低推理成本;

另(ling)一(yi)方(fang)面是(shi)希望將AI原生集(ji)成到數(shu)據(ju)庫(ku)中,楊(yang)傳輝(hui)闡述說這(zhe)有兩(liang)種融(rong)合(he)方(fang)式,一(yi)是(shi)較為直觀的(de)(de)在數(shu)據(ju)庫(ku)里通過類似AI function方(fang)式直接集(ji)成大(da)模型能力,另(ling)一(yi)種是(shi)實現SQL+AI的(de)(de)混合(he)計算,分析(xi)、問答一(yi)體(ti)完成,這(zhe)樣的(de)(de)融(rong)合(he)需要較長的(de)(de)時間(jian)來實現。

關于一體化數(shu)據(ju)底(di)座布局的(de)考(kao)量(liang),OceanBase在產品(pin)層(ceng)面首發了面向AI的(de)應用產品(pin)PowerRAG,為開(kai)(kai)發者打造AI驅動的(de)開(kai)(kai)箱即用RAG服(fu)務。

楊傳輝說,他們首(shou)要解決的是“能用(yong)”問題,通(tong)過RAG方式提升大模型準確率,再逐步從(cong)“可(ke)用(yong)”推進到“好用(yong)”,使得AI應用(yong)走向實際生(sheng)產場景。

AGI時代,數據庫廠商如何破局

傳統的搭建RAG服(fu)務方案存(cun)在開(kai)發(fa)(fa)周期長、維護成本高、灰箱調(diao)試困難(nan)、性能難(nan)以(yi)優化等(deng)問題。打通應(ying)(ying)(ying)用(yong)開(kai)發(fa)(fa)數據層、平臺層、接(jie)口層與應(ying)(ying)(ying)用(yong)層全(quan)流(liu)程的PowerRAG,可以(yi)提供Document(文檔(dang)(dang))和 Chat(對話(hua))兩個核心API接(jie)口,使得用(yong)戶可以(yi)快速(su)實現文檔(dang)(dang)知(zhi)識(shi)庫、智能對話(hua)、圖像(xiang)比對、數據分析(xi)等(deng)多種AI應(ying)(ying)(ying)用(yong)場景的開(kai)發(fa)(fa)。

這只(zhi)是OceanBase在應用(yong)層面探索(suo)的第(di)一步。未來,OceanBase將逐漸形成從算力、基礎設(she)施,到(dao)平臺層、應用(yong)層、交付形態的一體化數(shu)據底座全方位(wei)布局。

三、15年積淀,企業級分布式數據庫能力已打下基礎

這個勢頭正猛(meng)的(de)國產數據庫主(zhu)力,經過15年的(de)磨礪(li),已經淬煉出獨特(te)的(de)Data×AI Infra方法論,構建起(qi)智能時代的(de)核心競(jing)爭力。

成(cheng)立(li)自2010年的OceanBase,是(shi)螞(ma)蟻(yi)集(ji)團(tuan)100%自研(yan)的原生分布(bu)式(shi)數據(ju)庫,目前支持支付寶全部核(he)心(xin)賬務、核(he)心(xin)支付系統,連續十余年穩定支撐雙十一(yi)的高并發場景(jing)。

如今OceanBase取得的成績(ji)可以用這(zhe)幾個數(shu)(shu)據(ju)加以概括:IDC發布(bu)的《2024年上半年中國分布(bu)式事務(wu)數(shu)(shu)據(ju)庫軟(ruan)件市場(chang)跟蹤報(bao)告(gao)》顯示(shi),OceanBase占(zhan)據(ju)獨立數(shu)(shu)據(ju)庫市場(chang)份額第(di)一、市場(chang)整(zheng)體第(di)四;楊冰透(tou)露,目前OceanBase社區已經擁有超(chao)2.5萬名(ming)開(kai)(kai)發者,突破100萬下載次(ci)數(shu)(shu)、可統計(ji)的開(kai)(kai)源(yuan)集群(qun)數(shu)(shu)超(chao)5萬個。

AGI時代,數據庫廠商如何破局

OceanBase已通過橫向擴展的技(ji)術底座構建起符合AI時代技(ji)術能(neng)力的技(ji)術基(ji)礎,同時以縱向深化(hua)的高(gao)性能(neng)數據處理基(ji)準,為(wei)打造AI時代的一體化(hua)數據底座積勢(shi)。

從技(ji)術底座的(de)(de)布局(ju)看(kan),OceanBase最基(ji)本的(de)(de)企業級(ji)分(fen)布式數據庫(ku)能力,為AI時代的(de)(de)海量數據處理(li)分(fen)析打下基(ji)礎(chu)。同時,其(qi)同步推進向量性(xing)能、混(hun)合檢(jian)索等支持AI應用落地的(de)(de)核心基(ji)礎(chu)設(she)施發(fa)展。

從(cong)性(xing)能表現看,OceanBase的性(xing)能已(yi)經(jing)達到開源(yuan)向量(liang)數(shu)據(ju)庫業界(jie)領先水平。楊(yang)傳輝現場演示對比了OceanBase與業界(jie)主流的3款開源(yuan)向量(liang)數(shu)據(ju)庫,結果顯示,OceanBase的跑分超過其他(ta)三(san)大業界(jie)主流開源(yuan)向量(liang)數(shu)據(ju)庫。

AGI時代,數據庫廠商如何破局

此外(wai),在處理(li)海量(liang)數據方(fang)面,OceanBase引(yin)入BQ量(liang)化算(suan)法(fa),OceanBase的測試結果顯示,在同等召(zhao)回率與性能的情況(kuang)下,引(yin)入該算(suan)法(fa)(HNSW+BQ)能夠實(shi)現(xian)內存成(cheng)本較HNSW降低 95%。

為幫助用(yong)戶降低AI場(chang)景中常(chang)見的(de)半(ban)結(jie)構化數(shu)據存儲(chu)成本(ben),OceanBase引入針對JSON半(ban)結(jie)構化數(shu)據的(de)壓(ya)縮能力。經OceanBase測試(shi), OceanBase在TPC-H 10G數(shu)據集上(shang)JSON壓(ya)縮比可達MongoDB的(de)3倍。

同時,在技術布局的前瞻構建與用戶需求的精準(zhun)洞察之(zhi)外,OceanBase宣布了(le)全(quan)維度擁(yong)抱AI的戰略(lve)決斷,并且即刻啟動(dong)組織(zhi)效能(neng)革新與人才結構升級的雙輪驅動(dong)。

OceanBase CTO楊傳輝擔任AI戰略一(yi)(yi)號位(wei),全面統籌(chou)AI戰略制定和(he)技術產品落(luo)地,同時成立AI平臺(tai)與(yu)應用部、AI引擎(qing)組等,將形成AI時代(dai)從一(yi)(yi)體(ti)化存(cun)儲到一(yi)(yi)體(ti)化計算的全方位(wei)布局(ju)。

全(quan)面進入AI時代背后,是OceanBase打造AI時代一體化數據(ju)底座的技術底氣與(yu)信心。

結語:OceanBase全面擁抱AI,數據庫轉型已先行一步

隨著AI發(fa)展,數(shu)據庫在(zai)智能生態(tai)中承載的(de)能力正(zheng)經歷顛覆性變革,從傳(chuan)統(tong)的(de)數(shu)據存儲容(rong)器蛻(tui)變為驅動AI全流程的(de)智能引擎(qing)。

數(shu)據庫企(qi)業正以主動變革的姿態(tai),將技術迭代(dai)轉化為AI時(shi)代(dai)的增(zeng)長引擎。OceanBase希望由“數(shu)據庫”向“數(shu)據底座”演(yan)進,形(xing)成(cheng)全(quan)方(fang)位(wei)、一體化處(chu)理這些(xie)問題(ti)的解決(jue)方(fang)案,為AI時(shi)代(dai)的企(qi)業解決(jue)數(shu)據處(chu)理難題(ti)。