智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 漠影

“投入幾(ji)百(bai)萬采(cai)購算力及大模型(xing),AI應(ying)用(yong)依(yi)然跑不起來。”某傳統行業(ye)公司CTO的吐槽,折(zhe)射出當前企業(ye)AI落(luo)地(di)的普遍困(kun)境。

當DeepSeek掀起的大模型平權潮到來,企業逐漸意識到:功能趨同的模型已難形成差異化競爭力,而雜亂無章的數據正成為AI價值釋放的最大瓶頸。數(shu)據孤島嚴重,決策延(yan)遲(chi)導致損(sun)失;數(shu)據存儲(chu)模型單一,不同(tong)模型無法統一存放(fang)調用;數(shu)據質量差,帶來嚴重預測偏差率……

企業數(shu)據現狀與AI需(xu)求嚴重錯位,何解?

一、AI競爭范式轉移:數據質量取代模型選型

產業正在形成新共識:數據管理能力正取代模型選型,成為AI核心競爭力。

當下,大模型參數(shu)(shu)(shu)量級躍升(sheng),訓練及推理數(shu)(shu)(shu)據需(xu)求指數(shu)(shu)(shu)增長,多模態數(shu)(shu)(shu)據融合成(cheng)剛需(xu)。然(ran)而,企(qi)業80%的非結(jie)構(gou)化數(shu)(shu)(shu)據沉睡(shui)在(zai)孤島(dao)中,工業設備數(shu)(shu)(shu)據利用率不足5%……當AI亟需(xu)“高質量燃料”時(shi),多數(shu)(shu)(shu)企(qi)業的數(shu)(shu)(shu)據引擎仍停留在(zai)“蒸(zheng)汽時(shi)代”。

Gartner最新研究報告指出:“特定的LLM將不再被視為企業成功的主要區別因素。取而代之的是,其他企業很難獲得或復制的獨特內部數據將成為成功AI旅程的唯一競爭力來源。”在AI技術深度普及的今天,私有數據的獨特性、實時性、領域知識密度,才是AI應用的真正護城河。

換句話說,模型可以采購,但數據能力必須自建。

正值此時,行業悄然興起的新概念——AI-Ready Data Platform,正重新定義數據基礎設施標準:

1、多模態融合:統一管(guan)理關系型表、向(xiang)量、圖(tu)、時(shi)序(xu)等多種數據模型;

2、全鏈路治理:非(fei)結(jie)構化(hua)數據(ju)→結(jie)構化(hua)轉化(hua)→質量管控(kong)→領域(yu)知(zhi)識提煉→AI應用(yong);

3、實時洞察:端到端數據(ju)分析延時從“T+1天”提(ti)速至(zhi)“T+1秒”,數據(ju)落地(di)即分析。

對于企業來說,這不僅是技術的升級,更是一場思維的迭代更新。

過去(qu)企(qi)業數據(ju)架構(gou)以“事務處理”為核心設(she)計(如Oracle),現在需(xu)轉向以“AI消(xiao)費”為中心——這意味著數據(ju)平臺需(xu)具備三(san)大新(xin)能力(li):毫(hao)秒級響應、非結(jie)構(gou)化(hua)理解、跨(kua)模(mo)型關聯(lian)計算。

星環科技于5月27日推出的新一代AI Infra,是一套完整的AI基礎設施技術架構,正是圍繞“AI-Ready Data Platform”概念,為企業提供“外腦”的幫助。

據悉,星環(huan)新一代AI Infra包含四大核心平(ping)(ping)臺: Knowledge Platform(知識(shi)平(ping)(ping)臺)、AI Platform(AI平(ping)(ping)臺)、AI-Ready Data Platform(AI就緒(xu)數據平(ping)(ping)臺)和(he)Resources Platform(資(zi)源平(ping)(ping)臺),能助企業適應AI競爭。

大模型平權時代:企業AI決戰“數據就緒”新戰場

可以說(shuo),這不(bu)僅是一套(tao)完整的(de)AI基礎(chu)設施技術架構,更是一次(ci)關(guan)于未來(lai)企業(ye)智(zhi)能化(hua)如何落地的(de)系統(tong)性思考。

二、多模融合數據平臺,破解數據“三無”困境

作為(wei)星環科技AI Infra的(de)(de)核心構成,AI-Ready Data Platform是一個AI賦能(neng)的(de)(de)數(shu)據平臺,提供多模型數(shu)據的(de)(de)統一存儲(chu)和處理能(neng)力。

1、架構革命:從“數據倉庫”到“多模融合平臺”

過去,企業往往選(xuan)用不同架(jia)構(gou)處(chu)理文(wen)本(ben)、存圖譜(pu)、做分(fen)(fen)析(xi),導致數據(ju)冗余率(lv)居高不下(xia),跨模型分(fen)(fen)析(xi)需人(ren)工搬運(yun)。多模統一架(jia)構(gou)將異構(gou)數據(ju)查詢歸約為單入口(kou)操(cao)作(zuo),使(shi)開發效率(lv)大大提升。

面向大模型時代的多模態數據需求,星環科技推出的AI-Ready Data Platform支持向量、圖、文檔、全文索引、關系型表等多種數據(ju)模型,為AI應用(yong)提供豐富的數據(ju)基礎。

同時(shi),平(ping)臺實現了統(tong)(tong)(tong)一(yi)接口、統(tong)(tong)(tong)一(yi)計算引擎、統(tong)(tong)(tong)一(yi)存儲(chu)、統(tong)(tong)(tong)一(yi)資源(yuan)管理,形(xing)成了完(wan)整的(de)統(tong)(tong)(tong)一(yi)技術架構,用戶可以在接口和(he)計算層屏蔽(bi)所有異(yi)構數(shu)據(ju)帶來的(de)差異(yi)化,以統(tong)(tong)(tong)一(yi)形(xing)態滿足(zu)目前以及未來各類垂直(zhi)大模(mo)型(xing)場(chang)景(jing)的(de)落地需求。

AI-Ready Data Platform還支持非結構化數據處理,能夠將非結(jie)(jie)構(gou)(gou)化(hua)數據(ju)轉化(hua)為(wei)半(ban)結(jie)(jie)構(gou)(gou)化(hua)、結(jie)(jie)構(gou)(gou)化(hua)數據(ju),解決企業(ye)80%以(yi)上的非結(jie)(jie)構(gou)(gou)化(hua)數據(ju)難以(yi)利用的問(wen)題。

早在2020年(nian),星環科技(ji)就實現多(duo)模型統(tong)一架構(gou)技(ji)術(shu)突(tu)破。至2023年(nian)分(fen)布式(shi)向(xiang)量(liang)數據庫發(fa)布,其平臺已覆蓋關系(xi)型、向(xiang)量(liang)、圖、時(shi)序等11類(lei)主流數據模型。該公(gong)司連續兩(liang)年(nian)獲(huo)評(ping)Gartner“數據庫產品品類(lei)最多(duo)的(de)廠(chang)商之一”,并于國(guo)內首批通過中國(guo)信(xin)通院(yuan)“多(duo)模數據庫產品評(ping)測”。

2、數據治理自動化:AI反哺數據提質、知識沉淀

面向數據全鏈路治理痛點,星環AI-Ready Data Platform提供高效數據治理能力,確(que)保數(shu)據的準(zhun)確(que)性(xing)、一致(zhi)性(xing)和可用(yong)性(xing);同時,AI-Ready Data Platform強調(diao)特定領域知(zhi)(zhi)(zhi)識(shi),將數(shu)據模型轉化為知(zhi)(zhi)(zhi)識(shi),提(ti)取(qu)和沉淀領域知(zhi)(zhi)(zhi)識(shi),為AI應用(yong)提(ti)供知(zhi)(zhi)(zhi)識(shi)基礎。

值得一提的是,星環科技通過AI賦能實現數字治理的全面自動化。其以知(zhi)識(shi)工程為核心,構建了一套全(quan)面自動化、高(gao)效且精準(zhun)的解決方案,助力企業實現數(shu)據價值的深度挖掘與高(gao)效利用。

具體來說,AI-Ready Data Platform語料(liao)平(ping)(ping)臺(tai)支持多(duo)(duo)源數(shu)據(ju)采集(含(han)PDF、Word等多(duo)(duo)種格(ge)式及(ji)網絡/內部數(shu)據(ju)),可自動提(ti)取標準名稱(cheng)、編號、發布單位等關鍵信息,并(bing)實現智能分類。其知(zhi)(zhi)識工(gong)程平(ping)(ping)臺(tai)進一步解析文本、表格(ge)及(ji)圖像(xiang)內容,通過AI技術抽(chou)取數(shu)據(ju)項、定(ding)義等要(yao)素,構建含(han)數(shu)據(ju)字(zi)典、質量規則的知(zhi)(zhi)識庫,支持動態更新維護。

上述能力通過AI數(shu)據(ju)治理(li)MCP Server集成封裝(zhuang),實(shi)現數(shu)據(ju)治理(li)工具與(yu)AI的深度(du)協同,顯著提升治理(li)效率(lv)與(yu)智(zhi)能化(hua)水平。

3、實時能力:AI決策的“生死線”

面對實時能力這一AI決策的“生死線”,星環AI-Ready Data Platform支持全流程實時數據洞察:實時(shi)接入、實時(shi)處理、實時(shi)分析,滿足企業對數據時(shi)效(xiao)性(xing)的高要(yao)求(qiu)。

據悉,星環科技湖倉集平臺支持端到端秒級數據分析。其通過統一的存(cun)儲、資源管理、計算引擎(qing)及接口,同時支持批處理、交互分(fen)析、實時處理與在線服務四類場景,端到端數據處理時延從(cong)“T+1”天降至秒級。

大模型平權時代:企業AI決戰“數據就緒”新戰場

在(zai)100TB TPC-DS測試(shi)中,其(qi)分析性(xing)能較(jiao)Databricks(Photon)提升100%,硬件成本降(jiang)低50%。該(gai)架構自2017年(nian)迭(die)代至2022年(nian)湖倉集(ji)一體階段,數據集(ji)市性(xing)能持平或優于獨立(li)方案,目前已落地數百個(ge)客戶。

分布式時序數據庫Timelyre 9.3支持(chi)PB級時序數據(ju)秒級分析(性能提升10倍(bei)(bei)),適用(yong)于傳感(gan)器、金融交(jiao)易、系統日志、生(sheng)產設備(bei)等實時場景。通過線(xian)性擴展架構與5-20倍(bei)(bei)無損壓縮,其能夠實現(xian)EB級存儲支持(chi)及(ji)大幅成本(ben)優化。

總的來說,AI-Ready Data Platform可以助企業破解數據“三無(無統一、無質量、無時效)”困境。

這些能力通過星環科技的多款產品得以實現,包(bao)括(kuo)Transwarp Corpus Studio(星環語料(liao)開(kai)發(fa)(fa)工(gong)具)、Transwarp Data Studio星環數據開(kai)發(fa)(fa)工(gong)具)、Transwarp Data Hub(星環一站式(shi)多模型大(da)數據平臺)和(he)Transwarp Knowledge Hub(星環知識(shi)平臺)。

大模型平權時代:企業AI決戰“數據就緒”新戰場

可以(yi)推測,未來三年將(jiang)是AI數據(ju)平臺升級潮(chao)的加速期,各行各業(ye)的企(qi)業(ye)都需要考慮將(jiang)“AI-Ready Data”置于(yu)戰略優先級。

做AI應用就像烹飪,食(shi)材好(hao),飯菜才好(hao)吃。當數據(ju)成為更加高價(jia)值的資(zi)產,每一(yi)個(ge)企業都需要構建(jian)一(yi)個(ge)AI-Ready Data Platform這樣的“數據(ju)食(shi)材處理中(zhong)心”,為AI的應用做好(hao)準備。

三、一站式解決企業六大痛點,落地金融等行業

多(duo)模(mo)態數(shu)據(ju)“食材”一切就(jiu)緒,下一步(bu)還(huan)需要進(jin)入“智能廚房”。

星(xing)環科技推出(chu)的Sophon LLMOps 1.6 AI平臺正是這樣一個“智(zhi)能廚房”,助企業(ye)用(yong)處(chu)理好的食材烹飪AI應(ying)用(yong)。

Sophon LLMOps統一(yi)管理空(kong)間、模型、算力、數據及(ji)工具,實現智能體驅動的AI全流程運(yun)營。其四大核(he)心模塊協同支撐AI生命周期:

1、星(xing)鑄(模(mo)型(xing)(xing)開發):支持Hugging Face模(mo)型(xing)(xing)一鍵導入(ru)部署,具備自動量化與推理加速能力,兼(jian)容(rong)國產(chan)GPU及多(duo)環境管理;

2、星典(dian)(知識工程(cheng)):提供(gong)知識構建(jian)、融合與治(zhi)理(li)全流程(cheng)管(guan)理(li),支(zhi)撐業(ye)務語(yu)義(yi)理(li)解(jie);

3、星解(jie)(語(yu)料(liao)(liao)工程):實現語(yu)料(liao)(liao)資產化(hua)、標準化(hua)與分布式處理,保障(zhang)訓練數據供給(gei);

4、星構(應用開發):支持智能體/插件靈活編排,通過MCP協議快速集成業務系統。

大模型平權時代:企業AI決戰“數據就緒”新戰場

其核心解決六大企(qi)業痛(tong)點:

1、多模型(xing)適配難:統一納(na)管機制簡化集(ji)成(cheng);

2、算力資源(yuan)短(duan)缺:智能(neng)調度優化利用(yong)率;

3、語料供(gong)給(gei)不足:星(xing)解(jie)模塊實現專(zhuan)業(ye)供(gong)給(gei);

4、應用準確度低:知識工程+模型(xing)優化提升可靠性(xing);

5、傳統(tong)架構轉(zhuan)型(xing)難:適(shi)配(pei)AI新范式需求;

6、分散(san)建(jian)設成本高:統一平臺降低冗(rong)余投(tou)入(ru)。

企業可(ke)基(ji)于Sophon LLMOps構(gou)建客服助手、合規分析等跨部(bu)門(men)智能(neng)應(ying)用(yong)(yong),通過集中化管理實現資(zi)源可(ke)控、流程規范與資(zi)產(chan)復用(yong)(yong),加速AI規模化落地。

總的來說,數據平臺解決“AI無米之炊”,Sophon LLMOps解決“應用落地之困”,二者共同實現 “高質量數據→高價值應用” 的轉化,缺一不可。

從理論(lun)到實(shi)踐,星環科技的(de)新一代AI Infra已經(jing)在實(shi)際(ji)應(ying)用中加速落地。

比如在金融(rong)領域,某銀(yin)行(xing)通過星(xing)環科技構(gou)建企(qi)業級知(zhi)識(shi)庫(ku),解決數據治理(li)復雜、語料缺乏及(ji)知(zhi)識(shi)孤島問題(ti)。該銀(yin)行(xing)基于Sophon LLMOps平臺星(xing)典、星(xing)解,實現(xian)知(zhi)識(shi)資產全流程(cheng)管(guan)理(li),形成覆蓋指標、制度、運營、客服四大場景及(ji)金融(rong)通用(yong)知(zhi)識(shi)的“4+1”體系(xi),支撐智(zhi)能問答、信(xin)貸風控、財務分(fen)析(xi)等十余類應用(yong)。

結語:大模型平權呼喚全新AI Infra

當下,大模(mo)型的(de)平權正在加速,一場關于數據(ju)基礎(chu)設(she)施的(de)暗戰已然打響。企(qi)業需要清醒認識(shi)到:沒(mei)有AI-Ready的(de)數據(ju),就(jiu)沒(mei)有真正的(de)AI競爭(zheng)力。

當行業集體從“模型狂熱”轉向“數據務實”,新(xin)一(yi)代基礎設施的(de)較量,將決定(ding)誰是智能化時代的(de)真(zhen)正贏家。星環科技推出的(de)AI-Ready Data Platform、Sophon LLMOps等(deng)平臺,為企(qi)業的(de)數據就緒(xu)提供了有(you)力抓手。

但這(zhe)不是單純的(de)技(ji)術采購(gou),而是企(qi)業運營模(mo)(mo)式的(de)重(zhong)構。當(dang)數據就(jiu)緒度成為新(xin)KPI,2025年(nian)或許將見證兩(liang)類企(qi)業的(de)分野:用新(xin)一代AI Infra打破“數據詛(zu)咒”的(de)領跑者(zhe),與困(kun)在模(mo)(mo)型幻影中的(de)追(zhui)趕者(zhe)。