12月5-6日,由智猩猩與智東西聯(lian)合主辦的(de)2024中(zhong)國(guo)生成式AI大會(上(shang)海站)在(zai)上(shang)海圓滿收官。在(zai)第二日主會場進(jin)行的(de)「AI Infra峰會」上(shang),楓清科技創始?兼CEO高雪峰以《從數據到知識(shi):AI 重塑百(bai)行千業的(de)基石》為主題發表(biao)了(le)主題演講。

在演(yan)講中,高雪峰談到要將(jiang)生成式AI真(zhen)正(zheng)應用到企(qi)業(ye)(ye)決策(ce)場景中,彌(mi)合其與決策(ce)智能(neng)(neng)之(zhi)間鴻(hong)溝的(de)技術突破點,就是利用好企(qi)業(ye)(ye)本地知識,同(tong)時將(jiang)符號邏(luo)輯推理的(de)能(neng)(neng)力和各種(zhong)大模型(xing)的(de)算法能(neng)(neng)力相融(rong)合。

隨后,高雪峰(feng)指出企業智(zhi)(zhi)(zhi)能(neng)(neng)化的(de)(de)核心趨勢,正在(zai)從(cong)以(yi)模型(xing)為中(zhong)心(Model-Centric)的(de)(de)人(ren)工(gong)智(zhi)(zhi)(zhi)能(neng)(neng)架構落(luo)地(di)范(fan)式,轉向以(yi)數(shu)據為中(zhong)心(Data-Centric)這一新的(de)(de)人(ren)工(gong)智(zhi)(zhi)(zhi)能(neng)(neng)落(luo)地(di)范(fan)式。他總(zong)結了企業智(zhi)(zhi)(zhi)能(neng)(neng)化面臨的(de)(de)四個(ge)典(dian)型(xing)困境:模型(xing)幻覺、可解釋(shi)性、推理(li)能(neng)(neng)力弱、安(an)全與(yu)合(he)(he)規;以(yi)及企業級人(ren)工(gong)智(zhi)(zhi)(zhi)能(neng)(neng)平臺場景落(luo)地(di)需要解決(jue)的(de)(de)四個(ge)技術挑戰:數(shu)據孤島、數(shu)據整合(he)(he)、知識校驗、實時性與(yu)時效。

為此,他在演講中(zhong)表示(shi),楓(feng)清科技可以為企業提供知識(shi)(shi)引擎與大(da)模(mo)型(xing)雙輪驅動的(de)新(xin)一(yi)代智能體平臺,通過構(gou)建全(quan)鏈(lian)路優化(hua)(hua)體系,幫(bang)助企業提升數據(ju)(ju)質量,將企業本地數據(ju)(ju)知識(shi)(shi)化(hua)(hua),并融(rong)合(he)大(da)模(mo)型(xing)沉淀的(de)泛化(hua)(hua)知識(shi)(shi),在知識(shi)(shi)網(wang)絡(luo)之(zhi)上進(jin)行符號邏輯推理,實(shi)現(xian)可解釋(shi)的(de)智能,進(jin)而使AI在多個場景(jing)下(xia)能夠實(shi)現(xian)精準、透明的(de)決策支(zhi)持,推動企業智能化(hua)(hua)轉型(xing)的(de)順利實(shi)施。

之后,他(ta)重點介(jie)紹了楓清科技助力企業(ye)智能化落地實現的(de)兩個示(shi)例,分(fen)別是為金融企業(ye)客(ke)戶打造的(de)智能指標問數這一示(shi)例,以及為APEC會(hui)議開發的(de)中國-APEC數字平臺這一示(shi)例。同時,他(ta)也分(fen)享(xiang)了為頭部央企提供企業(ye)級(ji)知識引擎和智能體(ti)平臺,從而推(tui)動(dong)其智能化轉型這一合作案例。

演(yan)講最后(hou)高雪峰透露(lu),今年4月(yue)份以(yi)來楓清科技已經跟金融、化工能源、汽車制(zhi)造(zao)等行業的多(duo)家頭部央企展(zhan)開深入合作(zuo),進行人工智(zhi)能場景平(ping)臺的落地。

以下為高雪峰的演講全文:

各位來賓,下午好(hao)!今天很(hen)開(kai)心在這與大家(jia)一起探討當下最熱的(de)話題(ti):如何將人工智能技術真(zhen)正應用于千(qian)行(xing)百(bai)業,真(zhen)正發揮其作(zuo)為“新質生產(chan)力”的(de)核心作(zuo)用。。所以,我今天給(gei)大家(jia)帶來的(de)演(yan)講題(ti)目是(shi)《從數據到知識:AI 重(zhong)塑百(bai)?千(qian)業的(de)基石》。

首先,我(wo)簡單(dan)自我(wo)介紹下,我(wo)是高雪峰,楓(feng)清科(ke)(ke)(ke)技的創(chuang)(chuang)始人。在(zai)創(chuang)(chuang)辦(ban)楓(feng)清科(ke)(ke)(ke)技之前(qian),我(wo)曾擔任(ren)IBM認(ren)知計算解決方案研究院(yuan)院(yuan)長,后來加入(ru)了(le)阿(a)里云(yun),負責阿(a)里云(yun)大數(shu)據和(he)人工智能的技術產品。我(wo)一直在(zai)在(zai)大數(shu)據、人工智能和(he)ToB企業市場領域(yu)摸爬(pa)滾打了(le)大概20多(duo)年。因此(ci),在(zai)2021年創(chuang)(chuang)辦(ban)楓(feng)清科(ke)(ke)(ke)技時,我(wo)們一直堅持三個至今未變的原則:

1.我們(men)(men)在 2021 年談到未來的(de)(de)(de)(de)人工智能以(yi)及 AGI 時,就曾跟(gen)大家說,將(jiang)大模(mo)型與大圖融合(he)在一起,才能構建未來AGI的(de)(de)(de)(de)基礎。也就我們(men)(men)所說的(de)(de)(de)(de),將(jiang)符號邏輯推理與連接(jie)主義的(de)(de)(de)(de)概率融合(he)在一起,才能夠構建真(zhen)正的(de)(de)(de)(de)人工智能。

2.一定要以數據(ju)為中心,從數據(ju)的角(jiao)度(du)出發,構建(jian)未來人工智能(neng)的基礎(chu)平臺(tai)。

3.堅持ToB領(ling)域(yu)的(de)(de)深(shen)耕(geng)。這條路(lu)雖然慢,但這一(yi)領(ling)域(yu)能(neng)真正帶來實際(ji)的(de)(de)生產力價值和長(chang)期回報(bao)。

一、信息化到智能化:人工智能的三大階段

首(shou)先,我們來看(kan)一下人工智能的發展趨勢。

楓清科技高雪峰:Data-Centric新范式開啟,知識引擎+大模型雙輪驅動企業智能化

為什么我剛才說,我們在2021年與投資人、客戶交流時,都在強調“大模型與大圖的融合”才是未來通往AGI的基礎?我們(men)可以看到(dao),自從1956年人工(gong)智能這(zhe)個概念被(bei)達特(te)茅(mao)斯會議提出到(dao)現在,連接主(zhu)義和符號主(zhu)義兩種技(ji)術(shu)交替(ti)發展。任何單(dan)一技(ji)術(shu)都難以獨(du)占鰲頭,也無(wu)法(fa)靠(kao)單(dan)獨(du)的技(ji)術(shu)實現未來的通用(yong)人工(gong)智能。

因此,我(wo)們說(shuo)深度(du)學(xue)習,包(bao)括當(dang)下火熱的大(da)模型,都(dou)以Transformer技術為基礎,是(shi)概率體(ti)系的典型技術代表。所以,去年大(da)模型火爆出圈,所有人都(dou)認為連接主義、Transformer一(yi)定(ding)是(shi)未來(lai),能(neng)夠帶來(lai)真(zhen)正的智能(neng)涌現,帶來(lai)AGI。這(zhe)是(shi)業界一(yi)直以來(lai)的一(yi)種聲音。

但是,當我們將生成式人工智能技術應用到企業決策場景當中時,就會發現,真正的決策智能是不可能僅由生成式智能這一單一的技術來實現的。所以,如何跨越生成式人工智能到決策智能之間的鴻溝,真正讓人工智能的技術在企業場景側發揮價值,是我們當下最需要突破的核心技術點。當下在這(zhe)個領域,有非常多的(de)(de)(de)技術嘗試和(he)挑戰,包括OpenAI新推(tui)出的(de)(de)(de)GPT-o1,也不再(zai)追求(qiu)參數越(yue)來(lai)越(yue)大(da)的(de)(de)(de)智能(neng)涌現,而是在推(tui)理(li)的(de)(de)(de)框架側進行符號邏輯推(tui)理(li)與(yu)概(gai)率(lv)體系(xi)的(de)(de)(de)深度融(rong)合(he)。

再看下面,為什么剛才我說,我們在堅持“以數據為核心”推動智能場景落地。可以看到(dao),從最開始(shi)的(de)信息化(hua)時代,到(dao)數字化(hua)時代,到(dao)我們一(yi)直堅信的(de)未來智能化(hua)的(de)時代,都涌現出了(le)非常(chang)知名(ming)的(de)數據基礎設(she)施的(de)體系和標準。

在(zai)信息(xi)化時(shi)(shi)代,典型(xing)的(de)(de)代表是(shi)關(guan)系(xi)(xi)型(xing)數(shu)(shu)據庫,涌(yong)現(xian)出(chu)了Oracle、DB2,以及一直延(yan)續到現(xian)在(zai)的(de)(de)NewSQL體系(xi)(xi)的(de)(de)關(guan)系(xi)(xi)型(xing)數(shu)(shu)據庫,這(zhe)些(xie)都是(shi)在(zai)信息(xi)化時(shi)(shi)代最(zui)偉大的(de)(de)沉淀(dian)。

回到數(shu)字(zi)化的(de)時代(dai),在(zai)(zai)互聯網(wang)蓬勃發展的(de)這些年(nian),我們一直在(zai)(zai)強調、追求數(shu)字(zi)價值驅動企業(ye)決策。在(zai)(zai)這個時候,也(ye)涌現(xian)出了許多非常優秀的(de)數(shu)據(ju)基(ji)礎設施(shi)產(chan)品,如(ru)數(shu)倉(cang)、數(shu)據(ju)湖、智能(neng)湖倉(cang)等(deng),都(dou)是這個領域(yu)典型的(de)代(dai)表(biao)。

未來,當智能場景涌現在千行百業的時候,在智能化時代,也一定會有屬于它的數據基礎設施的形態。那么,這(zhe)種數據(ju)基礎設施(shi)的(de)(de)形態,與從(cong)生成式人工智能到決策智能之間的(de)(de)演進路(lu)徑,是否有天然的(de)(de)結合點呢?這(zhe)就是我們一直(zhi)在探索、研究和實踐(jian)的(de)(de)技術領域。

二、企業智能化趨勢:從Model-Centric轉向Data-Centric

今年(nian)4月份,國家把(ba)“人工(gong)(gong)(gong)智(zhi)能(neng)+”寫進了政(zheng)府工(gong)(gong)(gong)作(zuo)報(bao)告(gao)當中,正(zheng)式揭開(kai)了所(suo)有企業(ye)級的(de)場景(jing)在(zai)行業(ye)中真正(zheng)擁抱人工(gong)(gong)(gong)智(zhi)能(neng)技術(shu)、帶來生產力(li)變革的(de)序幕。我們也跟很多龍(long)頭企業(ye)、央國企展開(kai)了合(he)作(zuo),幫(bang)助它(ta)們把(ba)包括生成式人工(gong)(gong)(gong)智(zhi)能(neng)在(zai)內的(de)多種(zhong)人工(gong)(gong)(gong)智(zhi)能(neng)算(suan)法和分析技術(shu),結合(he)企業(ye)本地的(de)數據,在(zai)業(ye)務場景(jing)中真正(zheng)發揮(hui)價值,嘗(chang)試向決(jue)策(ce)智(zhi)能(neng)邁進。

楓清科技高雪峰:Data-Centric新范式開啟,知識引擎+大模型雙輪驅動企業智能化

在此前提之下,我們認識到,在企業業務場景當中單獨去進行模型微調,或者簡單地圍繞模型或企業數據的進行RAG檢索,很難滿足客戶在業務場景中的真正需求。

今天(tian),我們看到海外已經有很多聲(sheng)音,不再追(zhui)求模型參(can)數越(yue)來越(yue)大所(suo)產生的(de)智(zhi)能涌現。大家已經越(yue)來越(yue)少地談(tan)論這件事情,而是開(kai)始關(guan)注如何在推理(li)框架(jia)的(de)能力上,將符(fu)號邏輯推理(li)能力與生成式連接主義技術(shu)融合,嘗試進行技術(shu)突破。

大家一直以來堅持的以模型為中心(Model-Centric)的人工智能架構落地的范式,在ToB的業務場景中也已經開始慢慢地轉向以數據為中心(Data-Centric)的新的人工智能落地范式。

三、企業智能化的4個現實困境與4大技術挑戰

楓清科技高雪峰:Data-Centric新范式開啟,知識引擎+大模型雙輪驅動企業智能化

所以(yi),企(qi)業的智能化落(luo)地(di)會有哪些(xie)典型(xing)的落(luo)地(di)困(kun)境?

第一個是模型幻覺。大(da)模型(xing)會一本正(zheng)經的胡(hu)說八道。有一些(xie)我們的企(qi)業(ye)客戶跟我反饋,這(zhe)叫大(da)模型(xing)的“腦(nao)誤(wu)”。這(zhe)個問題(ti)在企(qi)業(ye)決策的場景當中,是必須要解決的。

第二個是可解釋性當企業(ye)決(jue)策智能給出決(jue)策建(jian)議(yi)(yi)或輔助建(jian)議(yi)(yi)時,缺乏(fa)透明(ming)的(de)思(si)考邏輯(ji)和決(jue)策依(yi)據(ju)。企業(ye)的(de)決(jue)策者很難真正地相(xiang)信這些建(jian)議(yi)(yi)并據(ju)此做出相(xiang)應的(de)行動和決(jue)策。

第三個是推理能力弱。僅靠?Transformer的概率連接主義,很難增強(qiang)其推(tui)理能力(li),所以我們需要把符號邏輯推(tui)理的能力(li)融入(ru)到(dao)落(luo)地(di)的技術平臺當(dang)中(zhong)。

最后一個是安全與合規性。許多企(qi)業都面臨同樣的(de)(de)(de)(de)(de)需求(qiu)(qiu):部(bu)門A與子公(gong)(gong)司(si)(si)A或B的(de)(de)(de)(de)(de)數(shu)據(ju)(ju)通常不允許互通。那(nei)么,如何(he)將這(zhe)些數(shu)據(ju)(ju)全(quan)部(bu)用(yong)(yong)于(yu)大模型(xing)的(de)(de)(de)(de)(de)微調(Fine-Tune),又能單獨為各(ge)部(bu)門和子公(gong)(gong)司(si)(si)提(ti)供(gong)智能決策建(jian)議呢?目(mu)前的(de)(de)(de)(de)(de)技(ji)術無法同時滿足這(zhe)兩個要求(qiu)(qiu)。因為只要將所有(you)數(shu)據(ju)(ju)用(yong)(yong)于(yu)同一個大模型(xing)的(de)(de)(de)(de)(de)微調,無論采用(yong)(yong)何(he)種方式,都可能通過提(ti)示詞(Prompts)提(ti)取出(chu)其他(ta)部(bu)門或子公(gong)(gong)司(si)(si)企(qi)業的(de)(de)(de)(de)(de)數(shu)據(ju)(ju)。因此,要確保(bao)數(shu)據(ju)(ju)安全(quan)與合規,實現對(dui)知(zhi)識進行細粒度的(de)(de)(de)(de)(de)權限控制,是(shi)企(qi)業級智能化平臺(tai)落地必須要滿足的(de)(de)(de)(de)(de)需求(qiu)(qiu)。

如果想要解決剛才說的四個困境,企業級人工智能(neng)平(ping)臺落(luo)地時(shi)會(hui)遇(yu)到哪些具體的技術挑戰(zhan)呢?

第一個是數據孤島。我原來在阿(a)(a)里(li)的(de)時(shi)候,負(fu)責大數據(ju)產品,也就(jiu)是飛(fei)天(tian)大數據(ju),是阿(a)(a)里(li)當時(shi)非常有名的(de)登(deng)月系統。我們把阿(a)(a)里(li)所有子公司的(de)數據(ju)全(quan)(quan)部(bu)匯(hui)聚(ju)到MaxCompute大數據(ju)平臺之上(shang),當時(shi)耗費了18個月的(de)時(shi)間(jian),我們把它稱(cheng)為“登(deng)月”。那么現在,對一(yi)個大型企(qi)業來說(shuo),僅(jin)將結構(gou)化數據(ju)的(de)數據(ju)孤島全(quan)(quan)集中到一(yi)個大型數據(ju)倉庫中,就(jiu)已經是一(yi)件(jian)無法完成的(de)的(de)任(ren)務。更別說(shuo)把企(qi)業閑置的(de)80%以上(shang)的(de)非結構(gou)化數據(ju)與(yu)結構(gou)化數據(ju)進行匯(hui)聚(ju)或連通,這一(yi)看就(jiu)是很難完成的(de)任(ren)務。

第二個是數據整合。比如(ru)說(shuo),銀(yin)行里存儲(chu)的(de)每個(ge)人(ren)(ren)的(de)身(shen)份證信(xin)息,與其數(shu)(shu)據庫表(biao)中該(gai)人(ren)(ren)對應(ying)的(de)貸款、存款等信(xin)息之間存在實際(ji)的(de)關(guan)聯關(guan)系。那結構化(hua)數(shu)(shu)據表(biao)和非結構化(hua)數(shu)(shu)據的(de)各種屬(shu)性之間存在隱含的(de)知識網絡連接。所以,如(ru)何(he)把數(shu)(shu)據整合起來,是一個(ge)非常大的(de)挑(tiao)戰。

第三個是知識校驗,如何將企(qi)(qi)業本地(di)數(shu)(shu)據(ju)實(shi)現(xian)真(zhen)正(zheng)的(de)(de)知(zhi)識(shi)(shi)化(hua)?在這里提到的(de)(de)不(bu)是(shi)單純(chun)的(de)(de)向(xiang)量化(hua),而是(shi)真(zhen)正(zheng)地(di)實(shi)現(xian)數(shu)(shu)據(ju)的(de)(de)知(zhi)識(shi)(shi)化(hua)。也就是(shi)說,如何利用企(qi)(qi)業數(shu)(shu)據(ju),包括元數(shu)(shu)據(ju),語(yu)義信息(xi)以及數(shu)(shu)據(ju)之(zhi)間(jian)的(de)(de)關系等(deng),構建(jian)出一個龐大(da)的(de)(de)知(zhi)識(shi)(shi)網絡。這是(shi)企(qi)(qi)業構建(jian)真(zhen)正(zheng)屬于自己的(de)(de)知(zhi)識(shi)(shi)引擎必須(xu)要做到的(de)(de)事情(qing),也是(shi)非常復雜的(de)(de)事情(qing)。

還有一個是數據的時效。通常在做決策的(de)時候,需要依據企(qi)(qi)業最新的(de)數據,以便智(zhi)能體(ti)平臺能夠(gou)為企(qi)(qi)業做出及(ji)時決策支撐和反饋。不管是Fine-Tuning,還是預(yu)訓練,都很難滿足企(qi)(qi)業對時效性的(de)需求。

四、Data-Centric:驅動AI場景化落地的新范式

楓清科技高雪峰:Data-Centric新范式開啟,知識引擎+大模型雙輪驅動企業智能化

因(yin)此,我們才提出要(yao)以數據(ju)為中(zhong)心,搭建企(qi)業(ye)人工(gong)智(zhi)能(neng)落地(di)的平臺(tai)架(jia)構。

最開始,業(ye)內使(shi)(shi)用(yong)“Data-Centric(以(yi)數(shu)(shu)據為(wei)(wei)中(zhong)心)”和(he)“Model-Centric(以(yi)模(mo)型(xing)(xing)(xing)為(wei)(wei)中(zhong)心)”這兩個詞,是為(wei)(wei)了研(yan)(yan)究如何(he)使(shi)(shi)模(mo)型(xing)(xing)(xing)算法(fa)更高效(xiao)、更低(di)成本地實(shi)現收(shou)斂(lian)(lian),達到(dao)最好的(de)模(mo)型(xing)(xing)(xing)效(xiao)果(guo)(guo)。“Model-Centric”通過(guo)不斷調整模(mo)型(xing)(xing)(xing)算法(fa),而“Data-Centric”則通過(guo)做好本地數(shu)(shu)據的(de)清洗和(he)知(zhi)識工程來達到(dao)最好的(de)模(mo)型(xing)(xing)(xing)效(xiao)果(guo)(guo)。在模(mo)型(xing)(xing)(xing)訓(xun)練(lian)和(he)收(shou)斂(lian)(lian)方面,業(ye)界已普遍采用(yong)Data-Centric的(de)方式。很多(duo)(duo)大模(mo)型(xing)(xing)(xing)的(de)企業(ye),在研(yan)(yan)究算法(fa)的(de)同時,也花費了很多(duo)(duo)精力構建自(zi)己(ji)的(de)知(zhi)識引擎,構建自(zi)己(ji)的(de)數(shu)(shu)據知(zhi)識化與知(zhi)識工程。

而我們在(zai)此(ci)談到的(de),并不是上述領域的(de)“Model-Centric”和(he)“Data-Centric”,而是人工智能技術在(zai)企業多(duo)場景(jing)落地(di)的(de)過程當中(zhong)涉及(ji)的(de)兩種架構范式:“Model-Centric”和(he)“Data-Centric”。

此處的“Model-Centric”指的是企業部署一個或多個多模態大模型,然后通過兩種方式利用企業的本地數據:第一種是扔給模型進行Fine-Tune,讓大模型能夠體現本地數據的價值;第二種是簡單地構建基礎知識庫,通過RAG的方式補充模型沒有理解的一些本地數據。這就是以(yi)模型為中心,依然是概率(lv)體系的架構(gou)特(te)征(zheng),并(bing)沒有從根本(ben)解(jie)決(jue)幻覺、可(ke)解(jie)釋性(xing)、推理能力(li)等等問(wen)題。

相反,“以數據為中心”則是不一樣的架構,關注的是企業本地的數據,并將其轉化為可用的知識。當然,這種轉化也是通過智能的方式來構建。當我(wo)(wo)們需(xu)要(yao)使用(yong)大模(mo)(mo)型(xing)(xing)或多模(mo)(mo)態大模(mo)(mo)型(xing)(xing)去做內(nei)(nei)容(rong)理解的(de)(de)時候,就用(yong)它去做內(nei)(nei)容(rong)理解;需(xu)要(yao)給它足夠的(de)(de)Prompt生(sheng)(sheng)成一(yi)長段內(nei)(nei)容(rong)的(de)(de)時候,我(wo)(wo)們就用(yong)它去做內(nei)(nei)容(rong)生(sheng)(sheng)成;當需(xu)要(yao)對結(jie)構(gou)化數據(ju)進行簡單的(de)(de)數理分(fen)析(xi)時,可(ke)以用(yong)非(fei)常傳(chuan)統的(de)(de)數據(ju)分(fen)析(xi)的(de)(de)方法(fa)去做結(jie)構(gou)化的(de)(de)數據(ju)分(fen)析(xi)。這種以本地數據(ju)知識化為核心(xin)的(de)(de)架構(gou),是企業(ye)級人(ren)工(gong)智(zhi)(zhi)能場景(jing)落地的(de)(de)有效范(fan)(fan)式(shi)(shi)。這種方法(fa)已經在多家大型(xing)(xing)的(de)(de)頭部企業(ye)進行過驗證(zheng),是一(yi)種能夠快速將人(ren)工(gong)智(zhi)(zhi)能的(de)(de)技術應用(yong)在企業(ye)決策場景(jing)中的(de)(de)典(dian)型(xing)(xing)范(fan)(fan)式(shi)(shi)。

通過與(yu)多家頭部央(yang)國企的接觸,我(wo)們(men)也觀察到,他們(men)已經(jing)開始尋求構(gou)建(jian)整個(ge)企業(ye)(ye)或者(zhe)集團的大(da)(da)型知識(shi)庫(ku)或知識(shi)網絡體系(xi)。當然不止自(zi)己(ji)本(ben)(ben)地的數據(ju),也會(hui)包含外部的各種各樣的數據(ju)。我(wo)們(men)把大(da)(da)模(mo)型中沉淀的知識(shi)稱之為“泛化(hua)知識(shi)”。我(wo)們(men)要做(zuo)的是(shi)搭建(jian)一個(ge)平臺,能夠(gou)把企業(ye)(ye)的本(ben)(ben)地數據(ju)知識(shi)化(hua),然后把大(da)(da)模(mo)型中的泛化(hua)知識(shi)與(yu)企業(ye)(ye)本(ben)(ben)地的知識(shi)融合在(zai)一起,來推動大(da)(da)模(mo)型在(zai)企業(ye)(ye)多個(ge)場景(jing)中的落(luo)地。

五、從數據到知識:企業智能化的技術路徑

楓清科技高雪峰:Data-Centric新范式開啟,知識引擎+大模型雙輪驅動企業智能化

所以,我們具體的過程是什么呢?最開始一定是要對企業的本地多模態數據進行智能化治理,然后構建為企業的本地知識網絡,同樣要把它存儲在知識網絡里,并進行相應的多種類型的知識領域的應用。在應用的過程當中,我可能會利用大模型的能力進行內容生成或知識的構建。

在大模型出現之前,知識圖譜的構建是一件成本非常高的事情。但是有了大語言參數模型,我們可以把構建龐大的企業知識網絡的效率變得非常高。這里面涉及到很多技術細節的突破。同時,也有很多(duo)技術特點需要去解決(jue)并實現。

第一個是企業知識的表征。以前企業的本地很多各種各樣的文檔,把它向量化就可以了。但實際上,向量化的過程就是信息壓縮、特征提取的過程。但是在這,我們不是把企業本地的數據單純地壓縮或是特征提取向量化,而是把企業所有的數據,向量與向量之間關系、實體和實體之間的關系、實體和向量之間的關系等等,都構建了一個龐大的企業數據知識網絡。

在這樣的一個知識網絡里面,需要我們能夠具備融合圖向量和類似Mongo的原文數據的分布式存儲和計算的能力。

在這之上,其實我們還要能夠通過智能體平臺的方式,智能地構建不同領域的知識引擎,生成特定的Prompts來去結合不同的大模型的能力,連接大模型內部的泛化知識,最后賦能多場景價值的應用。

同時,我們的知識網絡會不斷豐富語義信息。例如(ru)在為(wei)金融(rong)客戶構建知(zhi)識(shi)庫的(de)(de)時候,當問(wen)(wen)答系統(tong)遇到不(bu)理解的(de)(de)關鍵詞,我們會通過(guo)用(yong)戶反饋(kui)的(de)(de)方式(shi),將這些(xie)詞的(de)(de)語義理解疊加到知(zhi)識(shi)網絡中,使(shi)系統(tong)能(neng)夠理解新(xin)的(de)(de)問(wen)(wen)題,或者用(yong)戶訴求該(gai)如(ru)何滿足。

六、知識驅動:創新路徑加速大模型落地

楓清科技高雪峰:Data-Centric新范式開啟,知識引擎+大模型雙輪驅動企業智能化

所以,在人工智能的企業場景落地的平臺當中,我們必須要解決的核心的問題就是模型幻覺、可解釋性、推理能力、時效性和企業級安全能力。

為此,我(wo)(wo)們進行(xing)了多項(xiang)技術創新,包括圖(tu)和向(xiang)量的分布式存儲與計算融合(he)、獨創的Hybrid RAG技術、知(zhi)識的運維與校(xiao)驗,以(yi)及(ji)針對大模(mo)型推理框(kuang)架的Graph of Thoughts等(deng)前沿(yan)技術實(shi)現。這(zhe)些都是我(wo)(wo)們在落地(di)知(zhi)識驅動的智(zhi)能平臺落地(di)時需(xu)要(yao)解決的問題。

下圖展示了我們如何通過圖、向量融合等(deng)技術,有(you)效地解決了大(da)模(mo)型幻覺(jue)、推(tui)理能力弱以及大(da)模(mo)型數據(ju)時效性等(deng)問(wen)題:

楓清科技高雪峰:Data-Centric新范式開啟,知識引擎+大模型雙輪驅動企業智能化

我們當下服務的(de)(de)都是龍頭的(de)(de)央國企,即鏈(lian)主企業。通過鏈(lian)主企業,來(lai)構建對行業的(de)(de)影響(xiang)力(li)。

七、從AI Market Place到人工智能平臺新范式

那(nei)么,一定是(shi)通過(guo)平(ping)(ping)臺(tai)驅動的(de)(de)方式,來推(tui)動多智能化場景的(de)(de)均衡落(luo)地。下圖是(shi)我們(men)非常典型應用的(de)(de)一個(ge)平(ping)(ping)臺(tai)搭(da)建。

楓清科技高雪峰:Data-Centric新范式開啟,知識引擎+大模型雙輪驅動企業智能化

回到AI平(ping)(ping)臺這(zhe)個詞或(huo)說(shuo)這(zhe)個事(shi),我相(xiang)信(xin)大家都聽過很(hen)長時間(jian)了(le)。在(zai)上一代(dai)人工智能(neng)技術出現的(de)(de)時候,我們就(jiu)在(zai)談AI平(ping)(ping)臺。但(dan)那時的(de)(de)AI平(ping)(ping)臺,是由算法、數據(ju)和應用(yong)場景(jing)以“煙(yan)囪式”堆積而(er)成的(de)(de)平(ping)(ping)臺。這(zhe)個平(ping)(ping)臺,我更(geng)愿意把它(ta)稱之為AI的(de)(de)Market Place。

現在隨著大模型的涌現,模型這一層可以匯聚到一個或者幾個大模型領域當中。企業的模型在慢慢收斂到個位數級別,帶來的影響是底下的數據也一定會收斂到個位數的統一級別,即剛才提到的數據知識化的過程。

通過(guo)這樣(yang)的(de)(de)平臺能力,去賦能多價值(zhi)場景(jing)的(de)(de)落(luo)地,這是(shi)當下(xia)非常典型的(de)(de)人工(gong)智能平臺落(luo)地的(de)(de)架構。

八、“知識引擎+大模型”雙輪驅動企業智能化

下圖是我們幫很多頭部鏈主央企構建的真正能夠解決實際場景落地價值的人工智能平臺。最下面是基礎設施(智算中心);上層是由各個大模型企業以及云廠商提供的模型工廠;再往上是大模型的運維平臺,我們叫做Model OPS的平臺,包括訓練推理加速、模型的生命周期管理等等。很多企(qi)業在(zai)最(zui)(zui)開(kai)始嘗試的(de)時候(hou),結合了行(xing)業的(de)數據集直(zhi)接面(mian)向了最(zui)(zui)上層(ceng)的(de)多應用場(chang)景(jing)的(de)賦能(neng)。這個就是之前提及的(de)Model-Centric的(de)路徑。

楓清科技高雪峰:Data-Centric新范式開啟,知識引擎+大模型雙輪驅動企業智能化

但是,大部分企業在這樣的實踐的過程當中,發現剛才那幾個問題無法解決,無法真正實現決策智能的場景價值。所以,這也是為什么我跟所有企業說,中間其實缺了這樣的一層,也就是我們楓清科技的“一體兩翼”的產品矩陣,來進行知識的構建,把企業本地的數據構建為知識。它是一個數據關系的龐大網絡,而在這個網絡之上就可以進行符號邏輯推理,并結合大模型的生成能力,做真正可解釋的智能。

然后(hou),底下(xia)有我們核心的(de)(de)知識引(yin)擎(qing)(qing)、支(zhi)持圖、向(xiang)量以及(ji)源數據的(de)(de)分布(bu)式(shi)存儲(chu)計(ji)算的(de)(de)多模(mo)態智(zhi)能(neng)(neng)引(yin)擎(qing)(qing)。在此之上有大模(mo)型應用(yong)支(zhi)撐中(zhong)心,能(neng)(neng)夠鏈(lian)接并管理不同的(de)(de)大模(mo)型;同時有行業智(zhi)能(neng)(neng)體平臺,能(neng)(neng)夠管理本地知識引(yin)擎(qing)(qing),起到連接本地知識、行業知識以及(ji)模(mo)型中(zhong)的(de)(de)泛(fan)化(hua)知識的(de)(de)作用(yong)。最后(hou),所有應用(yong)場景都(dou)通過(guo)行業智(zhi)能(neng)(neng)體的(de)(de)方(fang)式(shi),透(tou)傳給企業智(zhi)能(neng)(neng)化(hua)的(de)(de)應用(yong)。

我(wo)(wo)早在IBM的(de)(de)(de)時候(hou),大概七(qi)八年前,IBM內部就推出了(le)一個非常秘密的(de)(de)(de)項目:Intelligent Workflow。當時正在做的(de)(de)(de)事情(qing)就是類似(si)目前的(de)(de)(de)這(zhe)個架構,只不(bu)過沒有把太(tai)多生(sheng)成式人(ren)工智能技(ji)術融入其中。當時也有Watson Debater,也是基于(yu)Transformer的(de)(de)(de)技(ji)術,能夠實(shi)現非常好的(de)(de)(de)人(ren)機對話的(de)(de)(de)實(shi)際應用。所(suo)以,我(wo)(wo)們要幫幫助B端客戶慢(man)慢(man)地(di)實(shi)現決策智能,必須要采用的(de)(de)(de)這(zhe)樣的(de)(de)(de)架構,沒有任(ren)何第二個選擇。

九、助力鏈主企業智能化實現示例和場景演示

下(xia)圖是我們(men)的(de)(de)一個案(an)例,通過我們(men)搭建的(de)(de)平(ping)臺,針對(dui)于頭部(bu)鏈主企(qi)業(ye)(ye)在(zai)實際業(ye)(ye)務場(chang)中(zhong)具體(ti)的(de)(de)智(zhi)(zhi)能化訴求,我們(men)提供了最基本的(de)(de)比對(dui)、交互、檢索、創作、總結等行業(ye)(ye)智(zhi)(zhi)能化的(de)(de)Agent能力(li),并(bing)結合企(qi)業(ye)(ye)本地已經知識化的(de)(de)數(shu)據體(ti)系,可以給企(qi)業(ye)(ye)進行多場(chang)景智(zhi)(zhi)能化賦(fu)能,這(zhe)些方案(an)已在(zai)多家(jia)頭部(bu)央(yang)企(qi)成功落地并(bing)應用于決(jue)策。

楓清科技高雪峰:Data-Centric新范式開啟,知識引擎+大模型雙輪驅動企業智能化

然后在這舉個很簡單的示例:智能指標問數。Text2SQL其實不是大語言模型最擅長的,因為這不屬于生成智能。但是,回歸到企業的決策指標問數領域,我們依賴的可不單純是企業本地的結構化數倉中的指標庫數據,還需要關聯企業本地的多模態數據。然后(hou),這些數(shu)據對企(qi)業的(de)決策(ce)產生影響之后(hou),我們要做(zuo)粒度非常(chang)細的(de)、直接對話式的(de)根因分析,才能(neng)夠真正實現企(qi)業的(de)決策(ce)智能(neng)。

在一個問數場景中,如何把我以(yi)上所說(shuo)的這些理念以(yi)及(ji)技(ji)術點(dian)給融(rong)合在一起呢?

楓清科技高雪峰:Data-Centric新范式開啟,知識引擎+大模型雙輪驅動企業智能化

上面這張(zhang)圖展示的是我們為一(yi)個金融客戶(hu)開發的智(zhi)(zhi)能指(zhi)標(biao)系(xi)(xi)統(tong)(tong)(tong)。當用(yong)(yong)戶(hu)查(cha)詢(xun)不(bu)良(liang)貸款(kuan)相關(guan)指(zhi)標(biao)時(shi),系(xi)(xi)統(tong)(tong)(tong)能夠智(zhi)(zhi)能搜索并(bing)生成不(bu)良(liang)貸款(kuan)指(zhi)標(biao)數據及對比。當用(yong)(yong)戶(hu)詢(xun)問不(bu)良(liang)貸款(kuan)指(zhi)標(biao)的后續影(ying)響(xiang)(xiang)時(shi),系(xi)(xi)統(tong)(tong)(tong)會直(zhi)接呈(cheng)現深度影(ying)響(xiang)(xiang)分析及解(jie)釋邏輯(ji)。系(xi)(xi)統(tong)(tong)(tong)還(huan)集成了智(zhi)(zhi)能體(ti)工(gong)具(ju)。例如,當用(yong)(yong)戶(hu)詢(xun)問“A越(yue)高(gao),B是否越(yue)低(di)”等相關(guan)性問題(ti)時(shi),智(zhi)(zhi)能體(ti)會調(diao)用(yong)(yong)相關(guan)性分析算法工(gong)具(ju),給出(chu)相關(guan)性和相關(guan)系(xi)(xi)數。

在系(xi)統搭建過程中,我們(men)將企(qi)業本地的非結構化數據(例(li)如不良(liang)貸款客戶類型(xing)比例(li)限制等(deng))也融入到知識(shi)網絡(luo)中,以便在指標展(zhan)示(shi)時直接提示(shi)用戶是否違反了監管規定(ding)和指標約定(ding)。通(tong)過該系(xi)統,我們(men)還(huan)能針對不良(liang)貸款比例(li)超標的企(qi)業,基(ji)于銀行數據的匯(hui)總(zong),分(fen)(fen)析其與(yu)不同(tong)企(qi)業之(zhi)間的交易往(wang)來,并(bing)進行不良(liang)貸款回(hui)溯分(fen)(fen)析,這正是典型(xing)的基(ji)于圖的根因分(fen)(fen)析。

在(zai)(zai)APEC多國貿易(yi)(yi)領域,有(you)非常多的結構(gou)(gou)化數(shu)據(ju)(ju)和(he)非結構(gou)(gou)化的貿易(yi)(yi)相關(guan)的交易(yi)(yi)數(shu)據(ju)(ju)。我(wo)們把這些數(shu)據(ju)(ju)整合到(dao)企(qi)業的本地知識體(ti)系(xi)(xi)當中,可以開放給(gei)APEC成(cheng)(cheng)員(yuan)國企(qi)業。幫助 APEC 成(cheng)(cheng)員(yuan)國的企(qi)業查找(zhao)上下(xia)游渠道商(shang)。系(xi)(xi)統(tong)還能(neng)智能(neng)生(sheng)成(cheng)(cheng)貿易(yi)(yi)分(fen)析報告(gao)、風險(xian)投(tou)資(zi)回報比等詳細信(xin)息,幫助企(qi)業決策出口產品到(dao)哪個APEC成(cheng)(cheng)員(yuan)國能(neng)帶來最大收益,以及在(zai)(zai)特定國家進行何(he)種類型的貿易(yi)(yi)。

楓清科技高雪峰:Data-Centric新范式開啟,知識引擎+大模型雙輪驅動企業智能化

通過(guo)我們的智(zhi)能體平臺,兩個(ge)禮拜內就(jiu)可(ke)以幫助企(qi)業(ye)快速搭建具備業(ye)務(wu)場景(jing)價值的智(zhi)能應用(yong)。

楓清科技高雪峰:Data-Centric新范式開啟,知識引擎+大模型雙輪驅動企業智能化

上(shang)圖展(zhan)示了(le)我們為一家頭部央企(qi)的(de)(de)集(ji)團搭(da)建的(de)(de)智(zhi)能(neng)(neng)平(ping)臺架(jia)構(gou),賦能(neng)(neng)并(bing)落地多個業(ye)務場景(jing),包括私域文檔智(zhi)能(neng)(neng)問(wen)(wen)答、企(qi)業(ye)供(gong)應鏈智(zhi)能(neng)(neng)問(wen)(wen)數(shu)、AI科技情報智(zhi)能(neng)(neng)分析,有效支持(chi)企(qi)業(ye)生產運營。例如,在生產線上(shang),我們實(shi)現了(le)智(zhi)能(neng)(neng)化的(de)(de)風(feng)險(xian)(xian)檢測,并(bing)結合(he)企(qi)業(ye)安全知(zhi)(zhi)識(shi)庫,為企(qi)業(ye)建立風(feng)險(xian)(xian)預(yu)警機制(zhi)。當(dang)生產過程中出(chu)現潛在問(wen)(wen)題時(shi),系統(tong)能(neng)(neng)夠及時(shi)向工廠或(huo)企(qi)業(ye)提供(gong)風(feng)險(xian)(xian)點提示。這一切都(dou)依托于集(ji)團安全生產知(zhi)(zhi)識(shi)庫的(de)(de)完善構(gou)建。平(ping)臺成功融合(he)了(le)多模態數(shu)據與企(qi)業(ye)文本知(zhi)(zhi)識(shi)數(shu)據,為智(zhi)能(neng)(neng)化生產提供(gong)了(le)強大支撐。

我們通過一(yi)個平臺(tai)可以(yi)賦能(neng)多(duo)個業務(wu)場(chang)景,同時(shi)還能(neng)夠幫助企(qi)業將(jiang)數據持續不斷地沉淀在統(tong)一(yi)的我們一(yi)個知(zhi)識平臺(tai)和知(zhi)識引擎當中(zhong)。

從今年(nian)4月(yue)以(yi)來(lai),我們已與(yu)(yu)多(duo)家頭(tou)部央國企(qi)展開深入(ru)合作(zuo),在(zai)人工(gong)智能(neng)場(chang)景平臺的(de)落地(di)方面積累了豐富經驗,覆蓋(gai)金融、化(hua)工(gong)能(neng)源、汽(qi)車(che)制造等多(duo)個行業。我們與(yu)(yu)客(ke)戶的(de)數字科技企(qi)業緊密合作(zuo),共同探索人工(gong)智能(neng)的(de)最(zui)佳應(ying)用路徑。

我(wo)們(men)觀察到,越來越多企(qi)業正(zheng)在(zai)積極探(tan)索如何將智(zhi)(zhi)能(neng)(neng)化技術真正(zheng)融入(ru)決策過程。未來,我(wo)們(men)希望能(neng)(neng)與在(zai)座的嘉賓和客戶一起,共(gong)同邁(mai)向人工(gong)智(zhi)(zhi)能(neng)(neng)賦能(neng)(neng)千(qian)行百業的美好新時代(dai)。