
智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 漠影
智東西7月28日報道,今天(tian)上午,螞(ma)蟻(yi)數科(ke)(ke)正式發(fa)布螞(ma)蟻(yi)數科(ke)(ke)金(jin)融(rong)推理大模(mo)型(xing)(xing)Agentar-Fin-R1 。該模(mo)型(xing)(xing)基于Qwen3研發(fa),在(zai)FinEval1.0、FinanceIQ等金(jin)融(rong)大模(mo)型(xing)(xing)評測基準(zhun)上超越DeepSeek-R1等同尺寸開源通用大模(mo)型(xing)(xing)以及金(jin)融(rong)大模(mo)型(xing)(xing)。
Agentar-Fin-R1包括32B和(he)8B參數(shu)(shu)兩個(ge)版(ban)本,還(huan)有非推(tui)理(li)版(ban)本的(de)14B和(he)72B參數(shu)(shu)大模(mo)型(xing)(xing),以(yi)滿(man)足金融(rong)機構在多樣化場景下的(de)部署需求。此外,螞蟻數(shu)(shu)科還(huan)推(tui)出(chu)基(ji)于百靈大模(mo)型(xing)(xing)的(de)MoE(混合專家)架構模(mo)型(xing)(xing),獲得(de)更優推(tui)理(li)速度。
同(tong)時,螞(ma)蟻數科還開源了大模(mo)型金融(rong)應用評測基準Finova以及Agentar-Deepfinance-100K金融(rong)領域訓練(lian)數據集。
一、螞蟻數科用3個特點登頂權威榜單,超越同類金融大模型
螞蟻(yi)數科(ke)首席技術官(guan)王維介紹,Agentar-Fin-R1 主要有(you)“可靠、可控(kong)、可優化(hua)”的三大特點:
首先(xian)是“可靠”,王維認為,行業大模型(xing)需要構建(jian)系統化(hua)專業化(hua)的金融任務(wu)體系。
為(wei)此,Agentar-Fin-R1打造了(le)6大(da)類66小類的(de)金(jin)(jin)(jin)融(rong)任務體(ti)系,覆蓋(gai)銀行、證券(quan)、保險、基金(jin)(jin)(jin)、信托等金(jin)(jin)(jin)融(rong)全場(chang)景。圍繞這一體(ti)系,通過(guo)可信的(de)數據合(he)成和長(chang)思維鏈(lian)的(de)精標鏈(lian)路,從(cong)場(chang)景數據出發,螞(ma)蟻數科構建(jian)了(le)100K的(de)大(da)規模訓練集。
基于(yu)任務(wu)體(ti)系和大規模數據訓練集,Agentar-Fin-R1在激(ji)活能(neng)力(li)(li)上和Qwen和DeepSeek等(deng)(deng)通(tong)用(yong)大模型(xing)旗鼓相當。在金(jin)(jin)融(rong)推(tui)理能(neng)力(li)(li)上,該模型(xing)在FinEval 1.0、FinancelQ以(yi)(yi)及(ji)Finova等(deng)(deng)金(jin)(jin)融(rong)榜(bang)單中,超越(yue)(yue)超越(yue)(yue)DeepSeek-R1等(deng)(deng)同(tong)尺(chi)寸開(kai)源通(tong)用(yong)大模型(xing)以(yi)(yi)及(ji)金(jin)(jin)融(rong)大模型(xing)。
在“可控”方面(mian),王維介紹,在訓(xun)練金融(rong)大模型的(de)過(guo)程中,該模型以金融(rong)任務(wu)體系為靶點(dian),結合主動(dong)學習(xi)的(de)實踐,通過(guo)自動(dong)識別(bie)模型的(de)薄弱(ruo)項,可以有針對(dui)的(de)合成數據、動(dong)態調節,在提升(sheng)訓(xun)練效率(lv)的(de)前提下(xia),避免了大規模的(de)遺忘。
Agentar-Fin-R1僅用不到一(yi)半的數據達成了(le)更優的模型能力(li),在多(duo)任務的均衡訓(xun)練中(zhong),該模型能夠極(ji)大地(di)降低微調階段需要的數據和算力(li),實現較高(gao)的遷移效率。
此(ci)外,Agentar-Fin-R1還將不(bu)斷進(jin)(jin)化。螞蟻數科首(shou)席技術(shu)官王維(wei)認為(wei),行(xing)業模(mo)型應(ying)該建立高(gao)頻(pin)的敏捷的迭代機制,讓模(mo)型能夠持續發現模(mo)型的問(wen)題和(he)缺(que)陷,進(jin)(jin)行(xing)快速(su)修復。
這背后需要兩個方(fang)面的努力,一是(shi)密(mi)切關(guan)注(zhu)實(shi)際數(shu)據,定位(wei)模型表現;另一方(fang)面就是(shi)緊密(mi)追(zhui)蹤(zong)金融動態,市場調整以及(ji)產業機構(gou)和產品的變化。
最終,螞蟻數科將通過訓(xun)練(lian)(lian)和評測聯(lian)動以(yi)及高(gao)效生(sheng)成(cheng)的訓(xun)練(lian)(lian)數據,驅(qu)動模型進化,使(shi)Agentar-Fin-R1更(geng)加貼合金融業務(wu)需要。
二、全面開源金融基準測試集,聯合五大機構發布
除(chu)此之外,螞蟻數科(ke)還聯(lian)合中國工(gong)商(shang)銀行(xing)、寧波銀行(xing)、北京前沿金(jin)融監管科(ke)技研究院(yuan)、上海人工(gong)智能行(xing)業協會等(deng)機構,推出大模(mo)型金(jin)融應用(yong)評測基準Finova。
Finova是針對復雜(za)推理任(ren)務(wu)(wu)和金融智能體任(ren)務(wu)(wu)的評(ping)測任(ren)務(wu)(wu)集,涵蓋意(yi)圖識(shi)別、工具調用和結構化表現(xian)等金融行業全方位測評(ping)的各個環節。
據介紹,螞蟻(yi)數(shu)科還首創了(le)高復(fu)雜度(du)的金融推理問題(ti)庫(ku),該數(shu)據庫(ku)來源于(yu)螞蟻(yi)積累的多年(nian)的真實業務數(shu)據,經(jing)過5000萬道問題(ti)和人(ren)工篩(shai)選(xuan),再配合長(chang)思(si)維鏈(lian)的精標(biao)鏈(lian)路,形(xing)成了(le)一套(tao)全(quan)面評估真實業務能力的評測集。
此外,螞蟻數科還將(jiang)Agentar-Deepfinance-100K大規(gui)模金(jin)融領域訓練數據(ju)集全面開(kai)源。
結語:金融與AI深度融合,步入“垂直專用”深水區
螞蟻(yi)數科CEO趙(zhao)聞飆說到,AI智(zhi)能體產業(ye)價(jia)值釋放的關鍵在于“水(shui)平通用(yong)”向“垂(chui)直專(zhuan)用(yong)”的戰略轉變。
此次Agentar-Fin-R1的推出(chu),以及Finova評測基(ji)準和Agentar-Deepfinance-100K數據集(ji)的開源(yuan),正(zheng)是這一(yi)轉變(bian)在金融(rong)領域的具體實踐。
隨著人(ren)工智能技術的不斷發展,金(jin)融機構對大模(mo)型的需求日益精(jing)細化,從最(zui)初在客服、辦公(gong)等場(chang)景的淺層次(ci)應用,逐步(bu)深入到風控、財富(fu)管理、信貸審批等核心業(ye)務流程。
然而,在實際推廣和應用過程中,如何確保模型在不同金融機構的業務環境中穩定運行,如何平衡模型性能與數據安全保護之間的關系等等挑(tiao)戰,依舊需要AI企業與金融機構(gou)共同(tong)解決。