智東西(公眾號:zhidxcom)
作者 | ?ZeR0
編輯 | ?漠影

智東西5月31日報道,今日,在2024向星力·未來數據技術峰會上,大數據基礎軟件龍頭星環科技面向企業構建大模型和應用生成式AI的需求,發布最新AI基礎設施產品Transwarp Knowledge Hub星環知識平臺(以下簡稱TKH), 提供企業級多模態知識存儲及服務,并推出一款一站式多場景語(yu)料開發工(gong)具(ju)TCS(Transwarp Corpus Studio)大(da)模(mo)型運營平臺Transwarp Sophon LLMOps

基于無涯大模型,星環知識平臺TKH打造了無涯·問知、無涯·問數、無涯·金融、無涯·工程等AI原生應用,可廣泛應用(yong)(yong)于金融、能(neng)源、制造(zao)、工程(cheng)等多個領域,通過(guo)精準(zhun)的數據分(fen)析和知(zhi)識管(guan)理,滿足企業不同類型的知(zhi)識應用(yong)(yong)需求,提(ti)升企業業務效率和競爭力。

星環科技發布了企業版、AI PC版企業級垂直領域問答產品無涯·問知In?nity Intelligence無涯·問知公有云服務也正式發布,首批(pi)邀請用戶已經(jing)可以在線測試。

同時,星環科技推出企業智能業務分析洞察平臺無涯·問數,讓用(yong)戶用(yong)自(zi)然語(yu)言輕松進(jin)行數據分(fen)析,解決(jue)傳(chuan)統BI(商(shang)業智能)使用(yong)門檻高、效率低的挑戰(zhan)。

星環科技創始人、CEO孫元浩宣布,星環科技的定位從Data Infra進一步延伸到AI Infra,為企業(ye)客戶打(da)造(zao)AI基礎設(she)施,打(da)造(zao)覆蓋語料處理、模(mo)型訓(xun)練、知(zhi)識庫建(jian)設(she)等的(de)一整套(tao)工具鏈,幫(bang)助企業(ye)快(kuai)速建(jian)立(li)行業(ye)大(da)模(mo)型,快(kuai)速使用AIGC。

孫元浩告訴智東西,在支持(chi)生成(cheng)式AI的(de)數據(ju)管理(li)方面,企業(ye)可能會用(yong)到向量數據(ju)庫(ku)(ku)、關系數據(ju)庫(ku)(ku)、圖(tu)數據(ju)庫(ku)(ku)、實時(shi)數據(ju)庫(ku)(ku)等(deng)不(bu)同類型(xing),這些(xie)都是為AI提供(gong)數據(ju)的(de)主要方式,現在很難說哪類比重會更高。

對(dui)于用戶而(er)言,已(yi)構建數(shu)據(ju)(ju)倉庫的(de)基礎較(jiao)大,結合大模(mo)型直接問(wen)數(shu)據(ju)(ju)庫比(bi)較(jiao)立(li)竿見影,需求(qiu)相對(dui)多。向量數(shu)據(ju)(ju)庫預計(ji)會加速增長(chang),語音、圖片、視頻(pin)必(bi)須要用向量數(shu)據(ju)(ju)庫,文檔建議(yi)也變成向量數(shu)據(ju)(ju)庫以拓展(zhan)檢索范圍。知識圖譜構建要求(qiu)較(jiao)大,但同樣是(shi)必(bi)要的(de)補充。當關(guan)系圖譜不足時,星環提(ti)供(gong)了(le)實時數(shu)據(ju)(ju)庫,還有傳感(gan)器分(fen)析。

面(mian)向AI PC布局,孫元浩認(ren)為AI PC是提高(gao)生產力的必需品,他透(tou)露說星環希望(wang)在本地(di)做(zuo)到(dao)千億參(can)數模型(xing),可能今年(nian)年(nian)底就可以做(zuo)到(dao)。

一、今年全球將生成159.2ZB數據,企業落地AI面臨4類挑戰

AI大模(mo)型正在催生新(xin)(xin)一輪技術創新(xin)(xin)與產業變(bian)革,將為金融、制造、交通、政(zheng)務等眾多行業企業數字化轉型和(he)高(gao)質量(liang)發展帶來新(xin)(xin)動能。

生成(cheng)(cheng)式AI出現(xian)(xian)后,深度學(xue)習(xi)(xi)從以前的(de)可能幾(ji)千萬、上億的(de)樣本數(shu)量的(de)大樣本機器(qi)學(xue)習(xi)(xi),演變(bian)成(cheng)(cheng)現(xian)(xian)在小樣本機器(qi)學(xue)習(xi)(xi),讓(rang)行(xing)業大模型(xing)應用范(fan)圍變(bian)得更廣,讓(rang)模型(xing)能夠思考、學(xue)習(xi)(xi),理(li)解(jie)自(zi)然語言,完成(cheng)(cheng)更多的(de)工作。

當前市場以通用(yong)(yong)基(ji)礎大模(mo)型(xing)(xing)為主,通識能力強(qiang),但缺少行業(ye)(ye)專(zhuan)業(ye)(ye)知識。讓企(qi)業(ye)(ye)的(de)AI應用(yong)(yong)從早(zao)期直接調用(yong)(yong)通用(yong)(yong)大模(mo)型(xing)(xing)發展到建立自己的(de)AI基(ji)礎設施,打造行業(ye)(ye)或特定領域、任(ren)務(wu)的(de)專(zhuan)用(yong)(yong)大模(mo)型(xing)(xing),助(zhu)力生產力革新和產業(ye)(ye)升級,已經成為企(qi)業(ye)(ye)關(guan)注的(de)核心(xin)。

在(zai)峰會上,IDC中國副總裁鐘振山分享了一些IDC調研結果。

星環科技全面戰略升級!幫企業高效構建AI Infra,助攻大模型快速落地

IDC預測(ce),全球2024年(nian)將生成159.2ZB數據(ju),2028年(nian)將增加1倍(bei)以上,達到384.6ZB,復合增長率為24.4%,分布(bu)在不同(tong)的數據(ju)庫中。DataSphere 2024最新預測(ce)還呈現了3D特征(zheng):分布(bu)式、多(duo)(duo)樣化、動態。未來兩年(nian)里(li),預計組織中的數據(ju)量(liang)、數據(ju)速(su)度、數據(ju)多(duo)(duo)樣性均會提升。

為了實現(xian)生成式AI,企業需要(yao)管理多方數(shu)據(ju)(ju)(ju)源,被調查企業中(zhong)50%使(shi)用(yong)數(shu)據(ju)(ju)(ju)倉庫支持生成式AI,35%使(shi)用(yong)向量數(shu)據(ju)(ju)(ju)庫,33%使(shi)用(yong)數(shu)據(ju)(ju)(ju)湖,33%使(shi)用(yong)支持向量搜(sou)索能力的NoSQL數(shu)據(ju)(ju)(ju)庫。

從落地形式來看,企業更多選擇私有化方式來訓練、推理和部署大模型。在實施AI技術時,企業或機構經歷過/預計會經歷成本、缺乏具備學習和使用AI所需技能的員工、缺少專項技能人才、缺少AI治理&風險管理、缺少AI監管規則等方面的挑戰。

星環科技全面戰略升級!幫企業高效構建AI Infra,助攻大模型快速落地

總體來看(kan),企(qi)業(ye)落地AI面臨4個主要(yao)挑戰:1)高(gao)投入成本(ben)與專業(ye)人才匱(kui)乏,是(shi)企(qi)業(ye)落地AI最大的(de)阻礙;2)數(shu)據基礎設施建設不足,需要(yao)商業(ye)落地、安全性、可(ke)持續發展(zhan)和數(shu)據管理(li);3)缺(que)乏統(tong)一(yi)數(shu)據管理(li)底座(zuo),海量、多元、非結構化數(shu)據高(gao)頻流動;4)缺(que)少知識庫的(de)支(zhi)撐(cheng),知識的(de)存儲、共享和流動。

二、定位延伸至AI Infra,為企業提供全流程開發工具鏈

從(cong)需(xu)求上(shang)看,目前通用大模(mo)型(xing)數量快(kuai)速(su)增加,并不斷升級迭代、提質增效(xiao),但卻不能適(shi)應企業(ye)AI應用的需(xu)求。

企業對行(xing)業大模(mo)(mo)型(xing)(xing)需(xu)求增加,迫切(qie)需(xu)要降低使用(yong)門檻,更加普惠地(di)使用(yong)大模(mo)(mo)型(xing)(xing)、生成(cheng)式(shi)AI技術,以解決企業內部人才、算(suan)力(li)、數(shu)據等不足(zu)的挑戰。發展(zhan)面向特定(ding)領域或任務的領域大模(mo)(mo)型(xing)(xing),不斷(duan)提升模(mo)(mo)型(xing)(xing)準確度,成(cheng)為(wei)一條切(qie)實可行(xing)的發展(zhan)途徑。

每個國家都需要(yao)主權AI,企(qi)業(ye)同樣需要(yao)自身(shen)的AI Infra來打造(zao)行(xing)業(ye)大(da)模(mo)型(xing),從而更快速便捷地用大(da)模(mo)型(xing)釋放數據價值(zhi)。

針對企業的AI Infra建設,星環科技通過自主研發,可向用戶提供一站式企業級大模型生產及應用全流程開發工具鏈,讓大(da)模(mo)型(xing)快速落地(di)。

星環科技擁有從語料到模型再到應用的完整的AI Infra工具集,覆蓋語料開發和管理、大模型訓練與持續提升、多模態知識工程、多模知識存儲與服務、原生AI應用構建編排和應用服務等重要階段,提供提示詞工程、檢索增強、智能體構建等大模型(xing)(xing)應用快速構建和提(ti)升、模型(xing)(xing)推理優化(hua)、模型(xing)(xing)安全(quan)和持(chi)續提(ti)升技(ji)術。

星環科技全面戰略升級!幫企業高效構建AI Infra,助攻大模型快速落地

星環科技AI Infra工具支持異構算力、語料、知識、大模型應用的統一管(guan)理,為數據(ju)和語料(liao)資產的集約(yue)化(hua)提供了(le)一站式平臺,且具備企業(ye)級的組(zu)織空間(jian)管(guan)理能力。

通過該(gai)工具,企(qi)(qi)業能(neng)夠準確、高效地將擁(yong)有的(de)多(duo)種(zhong)來源(yuan)(yuan)的(de)多(duo)模(mo)語料轉換(huan)為高質量(liang)的(de)專業領域知(zhi)(zhi)識(shi)(shi),源(yuan)(yuan)源(yuan)(yuan)不斷支(zhi)撐(cheng)專業知(zhi)(zhi)識(shi)(shi)庫問(wen)答、業財(cai)數據分析、智(zhi)能(neng)投研、設備預(yu)測(ce)性維護等豐富的(de)使用場(chang)景(jing)和應用,讓(rang)企(qi)(qi)業構筑知(zhi)(zhi)識(shi)(shi)壁壘,實現(xian)“人工智(zhi)能(neng)+”業務(wu)的(de)落(luo)地和創新。

后續星(xing)環科技將通過自主研(yan)發,不(bu)斷完善AI從(cong)基(ji)礎設(she)施到(dao)應用的產業鏈(lian)條,為客(ke)戶(hu)提供端(duan)到(dao)端(duan)的全套AI解(jie)決方案。

三、企業界垂直領域問答產品無涯·問知:四大應用場景,將數據和資料轉換為知識

星環科技發布了企業級垂直領域問答產品無涯·問知In?nity Intelligence,有企業版、AI PC版、云端版,包括四大應(ying)用場景:

1)企業可以基于星環(huan)知(zhi)識(shi)(shi)庫(ku)TKH,建立(li)企業自(zi)己的知(zhi)識(shi)(shi)庫(ku)應用(yong);

2)企業算力不足時(shi),可采用安裝了天涯(ya)·問知的(de)AI PC,在本地直(zhi)接訪問天涯(ya)·問知;

3)中小企業(ye)用戶(hu)不用自己構建知識庫,可(ke)直接利用星(xing)環科技無涯·問知公有云服務;

4)個人可利用AI PC或者公有云服(fu)務(wu),訪(fang)問天(tian)涯·問知服(fu)務(wu)。

無涯·問知(zhi)是(shi)一(yi)款(kuan)基于星(xing)環自研(yan)預訓練模(mo)型無涯Infinity和向量數(shu)據(ju)庫Hippo、圖數(shu)據(ju)庫StellarDB構建(jian)的企業級垂(chui)直領域問答知(zhi)識庫應用。

星環科技全面戰略升級!幫企業高效構建AI Infra,助攻大模型快速落地

該產品基于星環科(ke)技大模型(xing)底座,結合個人知識庫、企(qi)業知識庫、法律法規、財(cai)經等多種知識源(yuan),充分利用(yong)了星環科(ke)技自(zi)(zi)研大模型(xing)底座的自(zi)(zi)動化(hua)知識工(gong)程特(te)性,使(shi)(shi)其在處理和分析(xi)數(shu)據(ju)方面具(ju)有顯著的優(you)勢,允許用(yong)戶(hu)上傳文檔、表(biao)格、圖片等多源(yuan)數(shu)據(ju),并(bing)支持與外(wai)部(bu)數(shu)據(ju)源(yuan)的對接,使(shi)(shi)用(yong)戶(hu)能夠構建屬于自(zi)(zi)己(ji)的專屬領域大模型(xing)。

借(jie)助(zhu)這一(yi)工(gong)具,用戶可基于自身私域知識庫進行更為個性化和(he)深入的數據分析。

該產品支持不限長度的音視頻圖文等多模態數據快速入庫,且支持自動化文檔切片及向量化處理,配合自研的RAG框架,可實現知識的精準召回,可用于市場研究分析、企業供應鏈分析、法律風險預警、智能寫作等業務場景中。

面向個人用戶,星環科技推出無涯·問知AI PC版本,可(ke)在搭(da)載英特爾新(xin)一代CPU的主流(liu)(liu)個人電(dian)腦(AI PC)上(shang)基(ji)于集(ji)成顯卡和NPU流(liu)(liu)暢運行(xing)。

星環科技全面戰略升級!幫企業高效構建AI Infra,助攻大模型快速落地

無涯(ya)·問知AI PC版(ban)本提供(gong)本地化的(de)(de)(de)向量(liang)庫,支(zhi)持多(duo)種格式、不限長度的(de)(de)(de)文件(jian)資料入庫,并支(zhi)持影、音、圖、文等多(duo)模態(tai)數(shu)據和(he)資料的(de)(de)(de)“知識化”處理,以及相應的(de)(de)(de)“語義(yi)化”查詢和(he)應用能力,能夠(gou)對可(ke)量(liang)化的(de)(de)(de)數(shu)據進行(xing)精準的(de)(de)(de)分析和(he)研判。

該工具打通了個人文(wen)件資料與企業(ye)知識(shi)庫,形成本地(di)和云(yun)端的知識(shi)聯動(dong)推(tui)理,而且能保障個人的數據(ju)安全。

據介紹(shao),無涯(ya)·問知AI PC版本具備(bei)出(chu)色的(de)(de)內(nei)容理(li)(li)(li)解能(neng)力,包(bao)括對(dui)(dui)感知和(he)認知層(ceng)的(de)(de)深度(du)理(li)(li)(li)解,以及對(dui)(dui)事實、流程、圖譜(pu)等高(gao)級語意(yi)的(de)(de)把握,因此能(neng)夠更準(zhun)確地理(li)(li)(li)解用戶(hu)需求。

四、無涯·問數:用自然語言搞定數據分析,兼顧安全性與準確性

今日星環還發布了一款智能業務分析洞察平臺無涯·問數,基(ji)于星環(huan)數據(ju)分(fen)析大模型打造,旨在(zai)解決(jue)傳統BI在(zai)數據(ju)獲取、使用門檻和效率方面的挑戰,為決(jue)策者和業務人員(yuan)帶來更好的數據(ju)分(fen)析體驗。

該平臺集合(he)了大語(yu)言模型、AI和BI的能(neng)力,并結(jie)合(he)數據分析主(zhu)體、指標、標簽設(she)計、數據開發和治理(li),形(xing)成了從自然語(yu)言轉數據查(cha)詢語(yu)言并返回數據表或數據圖表的完(wan)整流程。

非專業(ye)用戶可(ke)在無涯·問數(shu)(shu)平臺上使用自然語言(yan)輕松查(cha)詢數(shu)(shu)據(ju),無需(xu)掌握數(shu)(shu)據(ju)庫編程語言(yan),有效解決取數(shu)(shu)需(xu)求開發鏈路長、指標(biao)二義性、缺乏數(shu)(shu)據(ju)挖掘能力、數(shu)(shu)據(ju)分(fen)析高(gao)度依賴人(ren)工經(jing)驗等(deng)傳統數(shu)(shu)據(ju)分(fen)析痛點,簡化了用戶與數(shu)(shu)據(ju)交(jiao)互的方式,讓數(shu)(shu)據(ju)分(fen)析變得更加(jia)便捷(jie)和直觀(guan)。

在安(an)全性上,無涯(ya)問(wen)數(shu)結(jie)合NL2SQL和可視化能力,將模型輸(shu)出結(jie)果(guo)解析為易于理解的界面化配置,并(bing)從多個維(wei)度提供全面的數(shu)據安(an)全管控,在更(geng)快、更(geng)高效獲取數(shu)據的同時,保證查詢過程的安(an)全性和結(jie)果(guo)數(shu)據的可解釋性。

在傳(chuan)統BI場景中,缺乏經驗(yan)的(de)(de)分析師難以給出高質量的(de)(de)分析報告,且靠(kao)人力經驗(yan)積累的(de)(de)業務邏輯、業務洞察無法(fa)沉淀為企業知識庫(ku)。

無涯問(wen)數針對(dui)數據安(an)(an)全(quan)保障有一系列精(jing)細(xi)的(de)數據安(an)(an)全(quan)和(he)(he)權限控(kong)制措施(shi),可(ke)以結合企業(ye)自由數據進行(xing)模型(xing)訓練,理解行(xing)業(ye)黑化和(he)(he)業(ye)務邏輯,在智能分析(xi)場(chang)景(jing)下提供更高(gao)的(de)模型(xing)準(zhun)確率和(he)(he)分析(xi)方(fang)法(fa)論等知(zhi)識(shi)輸入。

針對數(shu)(shu)據(ju)(ju)一致性(xing),無涯問(wen)數(shu)(shu)通(tong)過先進的(de)指(zhi)標和(he)標簽(qian)模塊解決取數(shu)(shu)渠道(dao)和(he)計算口徑不一致的(de)情況,提(ti)供(gong)包(bao)括(kuo)針對數(shu)(shu)據(ju)(ju)、指(zhi)標和(he)標簽(qian)的(de)智(zhi)能業(ye)務洞(dong)察范圍,并滿(man)足客(ke)戶數(shu)(shu)據(ju)(ju)來源準(zhun)確和(he)分(fen)析(xi)口徑統一的(de)需(xu)求;確保數(shu)(shu)據(ju)(ju)分(fen)析(xi)結果(guo)的(de)可靠性(xing),支持數(shu)(shu)據(ju)(ju)驅動(dong)的(de)決策制定。

在應用場(chang)景上,無涯(ya)·問數(shu)提(ti)供(gong)分析儀表盤和智(zhi)能(neng)問數(shu)能(neng)力(li),讓決(jue)策者/管理(li)(li)者以自(zi)然語言提(ti)問快速(su)自(zi)助獲取目(mu)標數(shu)據(ju)(ju);預定義指(zhi)標計算口徑,依(yi)托數(shu)據(ju)(ju)分析大(da)模型理(li)(li)解用戶的(de)分析意圖,讓數(shu)據(ju)(ju)分析人員(yuan)實現對話即(ji)分析;通過頁面配置的(de)方式快速(su)完成(cheng)數(shu)據(ju)(ju)準備,讓數(shu)據(ju)(ju)開發(fa)人員(yuan),快速(su)整合多種(zhong)數(shu)據(ju)(ju)。

五、星環知識平臺TKH:幫企業高效構建AI Infra

星環科技整合大數據、AI等技術,推出一款知識平臺Transwarp Knowledge Hub(TKH),為企業提供一個全面、高效、智能的數據處理(li)和知(zhi)識管理(li)解決方案。

TKH旨在為企業打通從AI基(ji)礎設施(shi)到大(da)數據(ju)、AI等(deng)研(yan)發應用(yong)的(de)完整(zheng)鏈條(tiao),實(shi)現企業內部所有資料(liao)知識化,能統管企業Al Infra算力、語料(liao)、模型、應用(yong),助力企業打造安全可(ke)控的(de)AI Infra、快速使用(yong)AIGC。

星環科技全面戰略升級!幫企業高效構建AI Infra,助攻大模型快速落地

星環知識平臺TKH包括知識存儲與服務、語料開發與知識構建、大模型基礎服務等幾個重要部分。

第一,TDH for AI,打造新一代一站式多模型數字底座。

TKH提供企業級多(duo)(duo)模(mo)態(tai)知(zhi)識(shi)存儲(chu)與服務,助(zhu)力企業打造新(xin)一(yi)代(dai)一(yi)站(zhan)式(shi)多(duo)(duo)模(mo)型(xing)數字(zi)底座(zuo)。基于Transwarp Data Hub for LLM知(zhi)識(shi)管(guan)理平(ping)臺的(de)多(duo)(duo)模(mo)型(xing)統(tong)一(yi)技術架構(gou),支持關系型(xing)數據、向(xiang)量數據、全文(wen)檢索、圖數據、時序數據等的(de)統(tong)一(yi)存儲(chu)管(guan)理,滿足(zu)各類場景下(xia)多(duo)(duo)模(mo)態(tai)數據的(de)統(tong)一(yi)存儲(chu)管(guan)理與服務,大(da)幅簡(jian)化知(zhi)識(shi)庫的(de)知(zhi)識(shi)存儲(chu)與服務層架構(gou),降低開(kai)發與運維成本(ben)。

星環科技全面戰略升級!幫企業高效構建AI Infra,助攻大模型快速落地

星環科技新推出的產品可以讓企業的數據底座實現四個一體化:湖倉集一體化、多模型處理一體化、歷史數據與實時數據處理一體化、本地集群和云平臺一體化

其中,大數(shu)據(ju)基礎平臺(tai)TDH 9.4的多(duo)模(mo)(mo)基座加速AI分析(xi);倉集資源隔離架(jia)(jia)構,在混(hun)(hun)合業務(wu)場景下依然保持極致性能;湖倉一體(ti)架(jia)(jia)構,大幅降低TCO;同份(fen)數(shu)據(ju)跑批查詢與混(hun)(hun)合負(fu)載,實時備份(fen)強(qiang)在線業務(wu)容災;同時支(zhi)持多(duo)模(mo)(mo)型(xing)存諸架(jia)(jia)構、大模(mo)(mo)型(xing)海(hai)量訓練數(shu)據(ju)存儲(chu)、多(duo)模(mo)(mo)型(xing)混(hun)(hun)合檢索(suo)召(zhao)回增強(qiang)、Python生態等。

分布(bu)式向量(liang)數據庫Hippo支持(chi)文本、圖片、音視頻(pin)等轉化后的百億級向量(liang)數據的存(cun)儲、索(suo)(suo)引(yin)和管理,支持(chi)多種索(suo)(suo)引(yin),具有全文檢索(suo)(suo)+向量(liang)檢索(suo)(suo)以及稀疏向量(liang)+稠密向量(liang)的混(hun)合檢索(suo)(suo)等能力。Hippo 2.0可實(shi)現百億級向量(liang)存(cun)儲,提供靈(ling)活索(suo)(suo)引(yin)支持(chi)、20倍內存(cun)成本下降和向量(liang)全文混(hun)合檢索(suo)(suo)等特性。

分布(bu)式(shi)圖(tu)數據(ju)庫(ku)StellarDB提(ti)供萬億級(ji)圖(tu)數據(ju)存儲、毫秒級(ji)點邊查詢和(he)10+層(ceng)深度鏈路分析等(deng)能(neng)力,支持豐富的(de)(de)(de)圖(tu)算法和(he)圖(tu)機(ji)器(qi)學(xue)習(xi),創新(xin)的(de)(de)(de)動態時(shi)序圖(tu)能(neng)力更便捷地(di)挖掘數據(ju)變化規律和(he)預測(ce)分析。新(xin)推出的(de)(de)(de)StellarDB 5.1實現了向量(liang)/全(quan)文模糊檢索(suo)、秒級(ji)子圖(tu)匹配(pei)、跨集(ji)群數據(ju)災(zai)備、RAG增(zeng)強大模型、GPU算法加速等(deng)功能(neng),更穩定、安全(quan)、易用。

星環分(fen)布式分(fen)析(xi)型數(shu)據庫ArgoDB支持標準SQL語法,提供多模(mo)分(fen)析(xi)、實時數(shu)據處理、聯(lian)邦計算(suan)、隱私(si)計算(suan)、數(shu)據脫敏(min)等能力,一站式滿足(zu)OLAP分(fen)析(xi),實時數(shu)倉、數(shu)據集市(shi)、湖倉集一體等場景。

新推出的ArgoDB 6.1 版本(ben)以“增量(liang)數(shu)據實時(shi)處理(li)(li)”技術為基礎(chu),定(ding)義并發(fa)布“實時(shi)數(shu)據加工(gong)”的智能(neng)高效新范式(shi);結合集(ji)群級實時(shi)同步與數(shu)據海量(liang)版本(ben)能(neng)力,協助用(yong)戶夠構(gou)建高可靠的實時(shi)可信大(da)集(ji)群,以數(shu)據透明加密、SQL審核/阻斷等安全(quan)技術手段為輔(fu),共建“快好省”湖倉集(ji)一體的融合數(shu)據處理(li)(li)架構(gou)。

星(xing)環分(fen)布式時(shi)序(xu)(xu)數(shu)(shu)據(ju)庫Timelyre支持(chi)海量時(shi)序(xu)(xu)數(shu)(shu)據(ju)庫的存(cun)儲與(yu)處理,具備每秒千(qian)萬級數(shu)(shu)據(ju)吞吐、5~20倍無損壓縮(suo)和毫秒級檢索能力,支持(chi)Python、C++等(deng)API,易用的時(shi)序(xu)(xu)分(fen)析框架滿(man)足金融智能投(tou)(tou)研(yan)需求。TimeLyre 9.2新增了(le)多模(mo)型時(shi)序(xu)(xu)分(fen)析、極速分(fen)布式回測平(ping)臺、投(tou)(tou)研(yan)數(shu)(shu)據(ju)中臺、時(shi)序(xu)(xu)數(shu)(shu)據(ju)湖引擎等(deng),助力用戶解鎖數(shu)(shu)據(ju)深層價值(zhi)。

星環分布式文件系統TDFS支(zhi)(zhi)持(chi)10億級以上的大小文件的存儲,并同時支(zhi)(zhi)持(chi)對象存儲,基于Raft保障(zhang)強(qiang)一致,支(zhi)(zhi)持(chi)HDFS平(ping)滑遷移,標準POSIX協(xie)議支(zhi)(zhi)持(chi)上層知識等AI場景應用無感對接。

第二,語料加工工具與圖譜構建工具,助力企業建立高質量模型及應用。

語料(liao)是決(jue)定行業(ye)大(da)模型(xing)質(zhi)量(liang)的關鍵因素,語料(liao)的質(zhi)量(liang)決(jue)定了模型(xing)的質(zhi)量(liang),同時高質(zhi)量(liang)語料(liao)也(ye)是解決(jue)行業(ye)大(da)模型(xing)“幻(huan)覺”、“可信可控”等核心落地難點的重要(yao)手段。

高質量行業專用語料是企業、機構獨特的競爭優勢和天然壁壘。星環科技發布了一站式多場景語料平臺Transwarp Corpous Sudio(TCS),旨在通過全(quan)面的語料生命周期管(guan)理,極大(da)提(ti)升(sheng)語料開發(fa)效率,助力企業或(huo)機(ji)構高(gao)質量地構建大(da)模型及其應(ying)用。

星環科技全面戰略升級!幫企業高效構建AI Infra,助攻大模型快速落地

TCS覆蓋了語料(liao)獲取、清洗、加工、治理(li)、應用和(he)(he)管理(li)的全生命周期,具有多種(zhong)靈活的采集和(he)(he)構建(jian)方式,能分(fen)布式的高(gao)效處理(li)海量語料(liao)。

這是一個(ge)功能全面、易用高(gao)效、安(an)全可(ke)靠的語(yu)(yu)料(liao)開發利器,支持20+主流文(wen)檔(dang)格式、數據(ju)化(hua)學公式、復雜語(yu)(yu)料(liao)處理、語(yu)(yu)料(liao)自動標注及篩選、多(duo)視角體系化(hua)資(zi)產(chan)編目和(he)數據(ju)治理等(deng)。它具有三大核心優勢:

1)強大的語料知識化能力,能夠自動標注知識(shi)(shi)元素、識(shi)(shi)別知識(shi)(shi)類(lei)型(xing)、推(tui)薦(jian)知識(shi)(shi)應用,并構建有針對性的場景知識(shi)(shi)庫(ku),簡化了知識(shi)(shi)管理(li)和知識(shi)(shi)應用的過程。

2)易用的語料應用化能力,支持將語(yu)料(liao)快速(su)轉(zhuan)化為多種應用(yong)形(xing)態,如自然語(yu)言處理(li)、機器學習等,大(da)大(da)降低了(le)(le)應用(yong)語(yu)料(liao)的門檻,加速(su)了(le)(le)從(cong)數(shu)據(ju)到(dao)知識的轉(zhuan)化過程。

3)完善的數據安全機制,TCS提供了完善(shan)的認證權限管理(li)和加密機(ji)制,確保語料數據(ju)、模(mo)型和應用的安全可信(xin),滿足企(qi)業對數據(ju)保護的嚴格(ge)要求。

企(qi)(qi)業知識(shi)庫的建(jian)設(she),讓數據可(ke)以(yi)用自然語言方式(shi)進行對話和檢(jian)索。企(qi)(qi)業可(ke)以(yi)集中式(shi)地管理和利用知識(shi)資源(yuan),提高運營效率和創新能力。只要企(qi)(qi)業保(bao)(bao)有(you)自己(ji)的知識(shi)庫,就可(ke)以(yi)通過微調得到(dao)(dao)企(qi)(qi)業專(zhuan)屬大(da)模(mo)型,實現大(da)模(mo)型隨(sui)(sui)時選、隨(sui)(sui)時換,且(qie)企(qi)(qi)業核(he)心(xin)競爭力得到(dao)(dao)保(bao)(bao)護(hu)。

企業用戶利用TKH提供的星環圖譜構建工具Transwarp Knowledge Studio for LLM,可將企業內部數(shu)據(ju)、個(ge)人經驗(yan)數(shu)據(ju)和公開信息數(shu)據(ju)轉(zhuan)(zhuan)化(hua)(hua)為知(zhi)(zhi)識(shi)(shi),讓數(shu)據(ju)平臺更加智能化(hua)(hua),同時(shi)能將AI PC端和云端資(zi)源聯動(dong),確保數(shu)據(ju)安全性(xing)。個(ge)人經驗(yan)數(shu)據(ju)的知(zhi)(zhi)識(shi)(shi)轉(zhuan)(zhuan)化(hua)(hua)和不斷的模型微調讓知(zhi)(zhi)識(shi)(shi)庫建設更具個(ge)性(xing)化(hua)(hua)。

TKS是一套全流程、端到端的知識圖譜構建工具集,涵蓋(gai)了(le)知識(shi)模型定(ding)義(yi)、多源(yuan)異構(gou)數據(ju)接(jie)入、概念與物(wu)理數據(ju)映射、多元化知識(shi)的抽(chou)取融合、全(quan)自動知識(shi)構(gou)建(jian)、圖譜綜合查詢等功能,能夠(gou)幫(bang)助(zhu)政務、工業、能源(yuan)等多領(ling)域(yu)客戶高效構(gou)建(jian)領(ling)域(yu)知識(shi)體系,并提供智(zhi)能應用的場景定(ding)制化和一(yi)站式解決方案。

第三,大模型基礎服務Infinity和LLMOps,讓大模型快速落地。

在(zai)行業大模型發(fa)展(zhan)中,企業面臨技術(shu)復(fu)雜、數據和算力稀缺(que)、管理成本高等(deng)挑戰,已經意識到必(bi)須建立自己的AI基礎設施,從而能夠自己對(dui)模型進行預(yu)訓練、微調等(deng)。

星環科技推出大模型運營平臺Transwarp Sophon LLMOps,提供(gong)一(yi)站式企(qi)業(ye)級大模型(xing)(xing)生(sheng)產及應用全(quan)(quan)流(liu)程開發工具(ju)鏈,助力企(qi)業(ye)完成從預訓練(lian)到微調,到強化學(xue)習,到持續模型(xing)(xing)評估的(de)全(quan)(quan)生(sheng)命周期,讓每個企(qi)業(ye)都能構建自己(ji)的(de)專屬大模型(xing)(xing)。

星環科技全面戰略升級!幫企業高效構建AI Infra,助攻大模型快速落地

一個(ge)Sophon LLMOps平(ping)臺可解決企(qi)業在大模型時代(dai)語(yu)料(liao)、模型、應(ying)用三類(lei)資產(chan)的持續積(ji)累和(he)加速迭代(dai)。

星環科技(ji)自主(zhu)研發(fa)的(de)(de)無(wu)涯(ya)大模(mo)型Infinity主(zhu)要功能(neng)包括智(zhi)能(neng)問(wen)答、文(wen)檔問(wen)答、智(zhi)能(neng)寫作等,具備自主(zhu)可(ke)控特性,在確保數據(ju)安全的(de)(de)同時,通(tong)過0-1預訓練,可(ke)為各(ge)行業量身定(ding)制(zhi)自有(you)大模(mo)型,提供強(qiang)大的(de)(de)意圖理解、語義(yi)召(zhao)回、數據(ju)處理和(he)分(fen)析能(neng)力(li)。

基于無涯大模型底座,星環科技微調了三款垂類大模型,包括問答大模型、數據分析(代碼生成)大模型、多模態大模型,以應對內容生成(cheng)、數據分(fen)析圖片及音(yin)視頻理解及檢索(suo)等(deng)多樣的(de)使用場景(jing)。

星環(huan)無涯大模(mo)(mo)型Infinity提(ti)供了靈活的(de)部署(shu)(shu)模(mo)(mo)式,包括私有化部署(shu)(shu)(AIPC版(ban)、企(qi)業版(ban))、公有云服務等,提(ti)升了大模(mo)(mo)型數(shu)據分析能力(li),在語法正確性(xing)、數(shu)據庫(ku)方言、語義正確性(xing)等方面(mian)有重要(yao)突破,能夠精準問答(da),減少(shao)大模(mo)(mo)型幻覺,并通(tong)過(guo)多(duo)模(mo)(mo)數(shu)據來源(yuan)來提(ti)升回答(da)豐富度,通(tong)過(guo)構(gou)建自有知(zhi)識庫(ku)來確保企(qi)業數(shu)據安全。

六、Data Infra產品與服務持續完善

星環科技在(zai)推(tui)出全新(xin)的AI Infra的同時,也在(zai)不(bu)斷完善Data Infra產品與服務。

星環大數據云平臺推出TDC 5.0,將原(yuan)來的多個TDH集(ji)群統一(yi)納管,統管多個TDH集(ji)群,形(xing)成物理上(shang)分散、邏輯上(shang)統一(yi)的企業級一(yi)體(ti)化大數據平臺。

TDC 5.0的(de)(de)優勢包括多(duo)集(ji)群(qun)及其基礎設(she)施、多(duo)數(shu)據應用實例統(tong)(tong)一管理;跨多(duo)集(ji)群(qun)統(tong)(tong)一調(diao)度資(zi)源(yuan),均衡多(duo)個集(ji)群(qun)資(zi)源(yuan)使用;跨集(ji)群(qun)共享(xiang)存儲(chu)組件,實現NoCopy的(de)(de)跨集(ji)群(qun)數(shu)據共享(xiang);隔離和控制資(zi)源(yuan)配額,快速、靈活地為不同(tong)業務部門提(ti)供多(duo)租戶的(de)(de)PaaS服務。

星環科技推出了分布式交易型數據庫KunDB 4.0,提升了高(gao)可用能力與Oracle兼(jian)容(rong)性,支持跨(kua)系統多租(zu)戶部(bu)署。

星環大數據開發工具TDS 4.0,增加了數據(ju)實時同步、數據(ju)入湖向導、智能化數據(ju)資產盤點(dian)、數據(ju)資產門戶(hu)、數據(ju)服務(wu)編排等功(gong)能。

星環大數據安全與隱私保護工具軟件Transwarp Defensor致(zhi)力于幫助(zhu)企業建設以數據(ju)(ju)為(wei)中心的(de)數據(ju)(ju)安全(quan)防(fang)護體系,包括了(le)解內部敏感數據(ju)(ju)分布(bu)情況,能夠幫助(zhu)管(guan)理者發現潛在風險、監(jian)管(guan)重要數據(ju)(ju)的(de)合(he)規(gui)合(he)理使(shi)用等。Transwarp Defensor 4.5,增加了(le)大模型核心資(zi)(zi)產(chan)識別、數據(ju)(ju)資(zi)(zi)產(chan)流轉(zhuan)鏈(lian)路監(jian)控、安全(quan)策(ce)略智能推(tui)薦,安全(quan)風險預警(jing)與應(ying)急響應(ying)。

星環數據要素流通平臺Transwarp Navier通過提供隱私計算環(huan)境,使(shi)得數據(ju)供需(xu)雙方可以進行(xing)安(an)全(quan)(quan)的數據(ju)交易。Transwarp Navier 3.1新增了全(quan)(quan)鏈路智能合(he)約確保安(an)全(quan)(quan)合(he)規、數據(ju)流通全(quan)(quan)鏈路行(xing)為監控與分(fen)析、實時告警(jing)與阻斷等。

結語:大模型成為企業核心能力,新型AI Infra生態走向繁榮

孫元浩談道,大模型技術已快速(su)融入(ru)企(qi)(qi)業生(sheng)產(chan)經營的方方面面,在(zai)企(qi)(qi)業生(sheng)產(chan)效率提升(sheng)、業務職能(neng)提效和行(xing)業應用場景創新(xin)中無處不在(zai),不但重構(gou)產(chan)業,打(da)造(zao)企(qi)(qi)業的核心競(jing)爭力(li),而且成為企(qi)(qi)業的基(ji)礎設施(shi)和核心能(neng)力(li),助力(li)企(qi)(qi)業打(da)造(zao)新(xin)質生(sheng)產(chan)力(li)。

如今(jin)頂尖基礎模(mo)型(xing)參數(shu)量達(da)(da)到(dao)千億(yi)級,基于MoE架(jia)構的稀疏大(da)模(mo)型(xing)更是達(da)(da)到(dao)萬億(yi)參數(shu),再(zai)加上大(da)模(mo)型(xing)及生成式AI進入廣泛(fan)落地階段,迫(po)切需要(yao)發展新型(xing)AI基礎設施(shi)來滿足對算(suan)力資源、高性能計算(suan)及存儲、數(shu)據管理(li)、安(an)全可(ke)靠、可(ke)解釋性等方面的嚴苛要(yao)求(qiu)。

高質量的(de)語料(liao)資(zi)源、高效率(lv)AI基(ji)礎設施(shi)已(yi)成為(wei)訓練和部署大(da)模型(xing)的(de)關鍵。星環科(ke)技一系(xi)列AI Infra工具及Data Infra產品與服務(wu)的(de)推出,為(wei)企(qi)業(ye)(ye)和機構提供了更加全(quan)面、易用、安全(quan)的(de)開發利器,有助于幫企(qi)業(ye)(ye)高效構建和管理(li)知識庫、加速(su)實現(xian)大(da)模型(xing)落地部署,提升數(shu)據處理(li)、價(jia)值挖掘和業(ye)(ye)務(wu)決(jue)策的(de)效率(lv)。