
智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 漠影
智東西4月(yue)2日(ri)報道,當(dang)前(qian),大模型技術正在加速滲透到行業(ye)數(shu)字化進程中(zhong),賦(fu)能新的應用場(chang)景,為各行各業(ye)創(chuang)造價值。
近期,在北京市召開的人工智能企業代表座談會上,曠視科技聯合創始人、CEO印奇表示,曠視將基于對行業的深入理解,推動多模態大模型的技術創新和行業應用。同時,曠視將發揮在軟硬結合方面的優勢,圍繞“大模型+機器人”的發展(zhan)方向,推動人工智(zhi)能為實(shi)體產業創造更大價值。
曠視布局大模型的實際進展如何?公司高層對大模型研發和產業落地有什么樣的見解?智東西獲悉,多模態、行業大模型和具身智能,是曠視圍繞大模型進行布局的一個主邏輯。
當下(xia)正(zheng)值(zhi)新的(de)(de)AI視(shi)(shi)覺(jue)浪潮興(xing)起(qi),從去(qu)年爆火的(de)(de)ChatGPT到(dao)今(jin)年的(de)(de)Sora,從機器(qi)人(ren)Figure01的(de)(de)誕生(sheng)到(dao)呼之欲出的(de)(de)GPT-5,產(chan)業的(de)(de)關注重(zhong)心正(zheng)從文(wen)本轉向(xiang)視(shi)(shi)覺(jue),從單(dan)模態轉向(xiang)多模態。
作為深耕深度學習技術超十年的曠視科技,也正從一家AI視覺公司,進化成一家多模態大模型公司。
在業內不少人士看來,當下AI發展脈絡可分為AI 1.0及AI 2.0,但印奇認為,AI的演進是一個連續的過程。從CNN、ResNet到Transformer,在上面的視覺、語音、NLP,都在從獨立發展走向融合,從量變走向質變。
按照印奇的(de)規劃,曠視(shi)(shi)將(jiang)面向(xiang)AGI(通(tong)(tong)用(yong)人工智(zhi)能)目(mu)標(biao),基(ji)(ji)于其在視(shi)(shi)覺(jue)模型及軟硬結(jie)合方面的(de)優勢,聚焦多模態大(da)模型領(ling)域(yu),逐步實現(xian)具身(shen)智(zhi)能的(de)價值主張;同(tong)時基(ji)(ji)于行業大(da)模型,堅定走通(tong)(tong)2B(面向(xiang)企業的(de))商業變現(xian)路(lu)徑。
一、AI視覺擁抱“大一統”,曠視駛向多模態
盡管(guan)視(shi)(shi)頻生成模型Sora風(feng)靡(mi)全球(qiu),但AI視(shi)(shi)頻領域的頭部國產玩家曠視(shi)(shi)志不在此。
OpenAI做的Sora是它們走向AGI的一個很重要的技術節點,隨之產生(sheng)了文生(sheng)視頻潛在(zai)應(ying)用,但更(geng)多是(shi)為(wei)了推動GPT-5。因此,重(zhong)點(dian)是(shi)要(yao)理解其底(di)層的技術框架,而不(bu)是(shi)Sora應(ying)用本身。
同時,在圖像視頻的領域,要將“生成”和“理解”分開來看。如果將Sora作為獨立應用來看的話,它聚焦視覺生成領域,核心應用場景更偏C端;曠視聚焦視覺感知和理解側,其多模態大模型是一個對圖片、視頻、文字等各種模態綜合識別理解和做邏輯推理的引擎。因此,曠視不會去做Sora,不會涉足太多生成式AI領域,而是專注于理解能力上,面向2B業務打造行業應用。
基于這樣的考慮,曠視對自己的定位是打造數十億至數百億參數之(zhi)間的(de)多模態(tai)大(da)模型。
曠視在視覺模(mo)(mo)型(xing)領域的(de)多(duo)年(nian)積累(lei),是其打(da)造多(duo)模(mo)(mo)態大模(mo)(mo)型(xing)的(de)基礎。同(tong)時(shi),數十億至數百億參數規模(mo)(mo)屬于(yu)中大型(xing)模(mo)(mo)型(xing),已具(ju)備較好的(de)通用(yong)屬性(xing),且在行業部署成本、硬件適配(pei)度等(deng)方面(mian)是一(yi)個較好的(de)區間。
當前,視覺模型領域呈現出“大”和“統一”的(de)趨(qu)勢。“大”意味著大數據、大算力(li)和(he)大參數量(liang),“統一”體現在NLP、視(shi)覺、語音等模(mo)態的(de)融合(he),以(yi)及(ji)感知、理解和(he)生成能力(li)的(de)融合(he)。印奇表示,曠視(shi)做多(duo)模(mo)態大模(mo)型(xing),本質上在視(shi)覺走向大一統路(lu)徑(jing)的(de)背(bei)景(jing)下,補全了語言模(mo)型(xing)方面(mian)的(de)能力(li),并(bing)把它們結合(he)在一起,以(yi)符合(he)現在這種多(duo)模(mo)態大模(mo)型(xing)新的(de)技術趨(qu)勢。
本質上,曠視(shi)正在從一(yi)家AI視(shi)覺公(gong)司,進化成一(yi)家多(duo)模態大(da)模型公(gong)司。
從視(shi)(shi)覺(jue)大模(mo)型,到(dao)生(sheng)物識(shi)別、計算(suan)(suan)攝影、自動(dong)駕(jia)駛等垂類算(suan)(suan)法,是曠(kuang)視(shi)(shi)近十年來(lai)長(chang)期投(tou)入研(yan)發的(de)領域。曠(kuang)視(shi)(shi)本身在關于(yu)視(shi)(shi)覺(jue)的(de)技(ji)術、數據和(he)底層框架上(shang)都擁(yong)有很(hen)深的(de)積累,并(bing)在此基礎上(shang)補齊了在語言方面(mian)的(de)能(neng)力,布局多模(mo)態大模(mo)型,是順理成章的(de)。
從資源投入角度來看,曠視研究院目前聚焦兩大方向:一是堅定投入多模態大(da)模型的(de)研發(fa),二是做機器人和大(da)模型的(de)結(jie)合(he)。曠視已從(cong)傳統意(yi)義上基(ji)于AI視覺的(de)垂(chui)類(lei)算法研發(fa),進(jin)化到了(le)與(yu)大(da)模型深度結(jie)合(he)的(de)研發(fa)賽道。
縱(zong)觀當(dang)下多模態(tai)大(da)模產業,市面上主要有(you)三類玩家(jia),分別是從文本(ben)、從視頻或是直接從多模態(tai),切(qie)入多模態(tai)大(da)模型(xing)領域做技術研發和落(luo)地。
業內人士告訴智東西,圖像是一個比文本更難的問題,因此曠視從視覺模型切入多模態,或許要比市面上的文本(ben)模型玩家切入多模態更容(rong)易。
二、聚焦行業大模型,企業共創抵達“最后一公里”
當下(xia)我國大模型發展如火如荼(tu),已居于全(quan)球(qiu)大模型發展前列。但(dan)同時,大模型產業仍(reng)面(mian)臨(lin)數據(ju)、人才(cai)、安全(quan)等方面(mian)挑戰,與全(quan)球(qiu)最(zui)先進(jin)水(shui)平存(cun)在較(jiao)大差距。
在這種背景下,發展行業大模型成為一條可(ke)能的(de)捷(jie)徑。
曠(kuang)視科(ke)技是這一觀點(dian)的支(zhi)持者。基礎大模型與行(xing)業(ye)結合(he),是要讓(rang)大模型在(zai)高價(jia)值的行(xing)業(ye)里(li)不斷迭(die)代和(he)進(jin)化。
一方面,大模型已經能夠解決不少的需求碎片化問題。據悉,曠視目前大量行(xing)業客(ke)(ke)戶的需求(qiu)都可(ke)以(yi)用(yong)大模(mo)型(xing)解決(jue),包括知(zhi)識(shi)庫(ku)、文案總結、圖像視頻(pin)事件分析等多(duo)個(ge)方面(mian)。比如,有(you)客(ke)(ke)戶提出通過(guo)大量視頻(pin)監測火情(qing)等情(qing)況,支持用(yong)自然(ran)語言描述進(jin)行(xing)系統交互;有(you)客(ke)(ke)戶提出建立支持文檔、法條、行(xing)業經驗等搜索的知(zhi)識(shi)庫(ku),這些場景都可(ke)以(yi)通過(guo)大模(mo)型(xing)技術來(lai)實現降本(ben)增效。
另一方面,要讓大模型真正攻破“最后一公里”并不容易,還需要在行業(ye)大模型(xing)上下功夫。為此,曠視(shi)基于自(zi)研可控的基礎(chu)大模型(xing),疊加行業(ye)里面(mian)的數據閉環,去打造行業(ye)垂直模型(xing)。
如何讓(rang)大模型(xing)攻破(po)行業落地的“最后(hou)一公里”?
按照印奇的觀點,第一步,是要把基礎模型疊加行業知識,讓它變成金融模型、運營商模型等。因為基礎大模型基本上無法覆蓋這些行業本身的語料和數據;第二步,行(xing)業大模(mo)(mo)型(xing)需(xu)(xu)要與行(xing)業中(zhong)的場景和終(zhong)端聯動(dong),這就(jiu)意味著在云端大模(mo)(mo)型(xing)以外(wai),還需(xu)(xu)要配(pei)套(tao)一個能在端側實現部署的附屬模(mo)(mo)型(xing)。
曠視主張通過行業共創發(fa)展行(xing)(xing)業大(da)模(mo)型(xing)。在行(xing)(xing)業大(da)模(mo)型(xing)落地的過程(cheng)中,大(da)模(mo)型(xing)企業需要與行(xing)(xing)業從(cong)業者坐在一起,通過梳理需求并(bing)評(ping)估(gu)技(ji)術可行(xing)(xing)性,確保(bao)業務價(jia)值大(da)于技(ji)術實施成本。
基于多年在AIoT(智能物聯)行業的積累,曠視從深度行業理解、商業化積累和軟硬結合技(ji)術三(san)大(da)方面建立(li)布局行(xing)業大(da)模型的(de)護城河。
1、深度理解行(xing)業。做(zuo)(zuo)行(xing)業模型,需(xu)要(yao)以行(xing)業真(zhen)正深度的(de)行(xing)業應用(yong)和(he)場景理解為驅(qu)動,才能不光是做(zuo)(zuo)一個(ge)簡單的(de)技術(shu)中(zhong)臺,或(huo)者是一個(ge)PaaS層,更重要(yao)的(de)是要(yao)做(zuo)(zuo)到行(xing)業有(you)價值的(de)行(xing)業應用(yong)層和(he)SaaS層。
2、商(shang)業(ye)客(ke)戶及經(jing)驗積(ji)累(lei)。大(da)模型(xing)的行(xing)業(ye)落(luo)地強調產品(pin)和商(shang)業(ye)化“一體兩面”,只有(you)擁有(you)非常好的行(xing)業(ye)、客(ke)戶和商(shang)業(ye)化能力資源積(ji)累(lei),才能持續在行(xing)業(ye)里做迭代。
3、軟(ruan)硬(ying)結合(he)技術積累。大模型(xing)(xing)與行業(ye)的(de)結合(he)往往需要大模型(xing)(xing)的(de)云(yun)側和端側的(de)聯動(dong),也就是軟(ruan)硬(ying)結合(he)。曠視多(duo)年來積累的(de)“云(yun)+端”技術能力(li),也會幫助行業(ye)大模型(xing)(xing)的(de)產業(ye)化(hua)落地。
總的來說,要真正將行(xing)業(ye)大(da)模(mo)(mo)型的商業(ye)模(mo)(mo)式打(da)磨(mo)出來,一定不(bu)是簡單(dan)拿(na)開(kai)源模(mo)(mo)型改(gai)一改(gai)就行(xing)了(le),還要有(you)端到端的大(da)模(mo)(mo)型能(neng)(neng)力,打(da)造能(neng)(neng)基(ji)于行(xing)業(ye)需求靈活調節的大(da)模(mo)(mo)型。
同(tong)(tong)時(shi),行業(ye)大模(mo)型(xing)的(de)本質上還是(shi)要以客戶為中心,只有真的(de)在行業(ye)浸泡很(hen)長時(shi)間,找(zhao)到行業(ye)痛點,且(qie)能讓(rang)需求方和供應方同(tong)(tong)時(shi)獲得收(shou)益,才能讓(rang)行業(ye)大模(mo)型(xing)成功抵達“最后(hou)一公里”。
三、軟硬結合,布局“大模型+機器人”
如果(guo)說行業(ye)大模型(xing)是曠視的現在,那么(me)“大模型(xing)+機器人”就是曠視的未來。
在過去(qu)十年里(li),曠視已(yi)將AI落地到了智慧城市、智能制造(zao)、智慧物流(liu)、消費電子(zi)等多個(ge)行(xing)業,這些都可(ke)能是未(wei)來機器人(ren)(ren)的(de)核心應(ying)用場景(jing)。在這個(ge)領(ling)域布局(ju)行(xing)業大模(mo)型將為曠視提供自我(wo)造(zao)血(xue)能力(li),從而支持其進一步探索“大模(mo)型+機器人(ren)(ren)”的(de)研發與(yu)落地。
印奇(qi)表(biao)示,曠視(shi)的(de)發展(zhan)歷史清晰地表(biao)明,最初其專注于(yu)傳(chuan)感器(qi)(qi)和其運(yun)動部件,這(zhe)些可以看作是(shi)機器(qi)(qi)人的(de)“眼(yan)睛”。隨后(hou),曠視(shi)在物(wu)流領域開發了(le)類似機器(qi)(qi)人“腿(tui)”的(de)自動化系統。
目前,曠視(shi)正在預研機(ji)(ji)器(qi)人的“手臂(bei)”,包括工業(ye)機(ji)(ji)械臂(bei)和靈巧手。未來,曠視(shi)期望將眼、手、腳三者結合(he),打(da)造泛機(ji)(ji)器(qi)人產(chan)品(pin)。
當前,曠視(shi)科技的重(zhong)點有兩個(ge):一是物流(liu)領域的機器(qi)人(ren),它們在(zai)搬運和腿部功能(neng)上表現出(chu)色;二是輔(fu)助(zhu)和自動(dong)駕駛領域,曠視(shi)將提(ti)供(gong)核心的感知(zhi)-決策-控(kong)制系(xi)統部件。
按照(zhao)曠(kuang)視的規劃,其“大模型+機器人”戰略是將愿景與能力(li)結(jie)合,追求(qiu)AGI(通用人工智能)和(he)機器人技術,以(yi)實現與人類生活的深度互(hu)動和(he)世(shi)界本質的美好(hao)變化。
在商業(ye)模式上,AI與新硬件結合帶來巨(ju)大商業(ye)機會(hui),類比從PC到手機的變革,機器人行業(ye)潛力(li)巨(ju)大。技術發展需長期積累和(he)成(cheng)本控制,實現規模化(hua)推廣。曠視致力(li)于軟硬結合和(he)商業(ye)化(hua),通過短期盈利閉環逐步擴大商業(ye)規模,目標成(cheng)為AI機器人領(ling)(ling)域的全球領(ling)(ling)先企(qi)業(ye)。
結語:視覺走向大一統,曠視推動多模態落地行業
當下,隨著AI成為發展新質生(sheng)產力的重要引擎,AI視(shi)(shi)覺(jue)技術也正走向新的大(da)(da)一統。透過(guo)曠視(shi)(shi)科技在(zai)大(da)(da)模(mo)型(xing)領域(yu)的布局,我(wo)們(men)看到視(shi)(shi)覺(jue)大(da)(da)模(mo)型(xing)正與文本模(mo)型(xing)加快融合,從而進入多(duo)模(mo)態大(da)(da)模(mo)型(xing)新階段。
布局行(xing)業(ye)大模(mo)型(xing)是當下我國“AI+”發(fa)展(zhan)的(de)有(you)效路徑之一。在過去的(de)十幾年的(de)時間(jian)里(li),曠視從技術(shu)長期堅持、迭(die)代演進到(dao)商業(ye)模(mo)式不斷探索,其技術(shu)積(ji)累(lei)及經驗(yan)教(jiao)訓(xun)都有(you)望促進其在行(xing)業(ye)大模(mo)型(xing)落(luo)地(di)中(zhong),與企業(ye)共(gong)創攻(gong)破“最后一公(gong)里(li)”。