機器人前瞻(公眾號:robot_pro)
作者 | 許麗思
編輯 |?漠影

在柏拉圖的洞穴(xue)隱喻里,一(yi)(yi)(yi)群一(yi)(yi)(yi)輩(bei)子(zi)(zi)沒(mei)出過山洞的(de)人,對外(wai)(wai)界(jie)唯一(yi)(yi)(yi)的(de)感知來(lai)源(yuan)是投射(she)在洞里墻(qiang)壁(bi)上的(de)影子(zi)(zi)。他們可以借助影子(zi)(zi)了解(jie)到外(wai)(wai)界(jie)的(de)一(yi)(yi)(yi)些(xie)情(qing)況,但影子(zi)(zi)對真實(shi)世界(jie)的(de)投射(she)不(bu)一(yi)(yi)(yi)定是完全真實(shi)的(de)。

現在的人工智能,也像處于“洞穴”之中,它對外界的理解來自于人為提供的二手信息(xi),還沒辦法直接去感受真實世界、獲取一(yi)手(shou)信息

而對胡魯輝(hui)來說,他想做的就是讓人工智能可以直接感知、理解(jie)物理世(shi)界(jie),然后進行交互,從而逐步接近通用人工智能

在(zai)清華大學、美國留學深(shen)造(zao)后,進入微軟、亞馬遜、華為美國研究院、Meta這樣的頂尖科技巨頭擔任(ren)高管,胡魯輝的履歷堪稱(cheng)優秀。

前年年底,他萌發了“理解物(wu)理世界”的想法。今年,他下決心回國再創業,創辦了智(zhi)澄(cheng)AI,“澄”的意思就是逐步走向真正的智能。“目前,國內還沒有類似企業。我們對標的是美國李飛(fei)飛(fei)老師創(chuang)辦(ban)的空間智能(neng)公司(si)。”胡魯輝說。

AI 2.0時代的(de)到(dao)來意(yi)味(wei)著(zhu)什(shen)么(me)?給(gei)機(ji)(ji)器人(ren)裝上模(mo)型(xing)就可以讓它實現具身智(zhi)(zhi)能?通用(yong)人(ren)工(gong)智(zhi)(zhi)能將會創造出機(ji)(ji)器人(ren)的(de)“iPhone時刻”?最近,機(ji)(ji)器人(ren)前瞻和智(zhi)(zhi)澄AI創始人(ren)胡魯輝進行了(le)一場深入交談,從他毅然(ran)轉向的(de)事業發展路(lu)徑背后,看到(dao)了(le)從多模(mo)態大模(mo)型(xing)到(dao)物理智(zhi)(zhi)能,實現通用(yong)人(ren)工(gong)智(zhi)(zhi)能的(de)新答(da)案。

對標李飛飛!前華為美研CTO創業,要讓機器人理解物理世界

▲前Meta首(shou)席工程師、智澄AI創始人(ren) 胡魯輝

一、擔任過多家科技巨頭高管,手握30+專利

早年在清華大(da)學畢業后(hou),胡(hu)魯輝就收(shou)到(dao)了(le)美國西(xi)北大(da)學等(deng)多所高校博士錄取通知,赴美深造。畢業后(hou),他選(xuan)擇留在西(xi)雅圖(tu),在這樣(yang)一座匯集了(le)一眾世界頂尖科技巨頭的城市工作。

他先是在微(wei)軟(ruan)亞馬遜(xun)總部工作了十來年,后面又加入華為(wei)美國研究(jiu)院(yuan)擔任首席架構師兼首席技術官,最近的一段經歷是在Meta擔任首席工程負(fu)責(ze)人,負(fu)責(ze)數據人工智能(neng)方面的(de)工作。

除了各大科技巨頭(tou)的(de)高管頭(tou)銜,他的(de)從業生涯中濃墨重彩的(de)一筆,是在(zai)美(mei)國獲(huo)得的(de)三十多(duo)項發明專利及申請(qing)。在(zai)這些專利里,胡魯輝作為主要(yao)負責人(ren),基本都是第一作者。

胡魯輝回憶起在2010年前后(hou),負責了一個亞馬(ma)遜線(xian)(xian)下(xia)(xia)零售的項(xiang)目。原本(ben)亞馬(ma)遜主(zhu)攻線(xian)(xian)上業(ye)務,后來想(xiang)要(yao)拓(tuo)展以無人店(dian)為(wei)代表的線(xian)(xian)下(xia)(xia)業(ye)務。但管理線(xian)(xian)下(xia)(xia)的商品銷(xiao)售就需要(yao)人工流程,這可能會(hui)耗費時(shi)間和成本(ben),并且(qie)可能難以準(zhun)確地(di)做出(chu)商業(ye)決策。

最(zui)初,他選擇用軟件處理(li)這種問(wen)題。后來,他開始研發人工智能,還獲得了一(yi)個“用于線下零售業(ye)務的數據驅(qu)動和(he)自(zi)適應機(ji)器學習(xi)(xi)(ML)平臺和(he)技術”的專利,可以讓多個機(ji)器學習(xi)(xi)算(suan)法為線下零售提供多樣化的支持。

這(zhe)(zhe)是胡魯(lu)輝(hui)第一(yi)個(ge)與AI相關(guan)的專利(li)發明,也是從這(zhe)(zhe)里開始,他可以說是真正對AI領域產(chan)生了(le)濃(nong)厚(hou)的興(xing)趣。那個(ge)時候(hou),AI尚(shang)未到(dao)火爆、備(bei)受(shou)關(guan)注(zhu)的程度。

對標李飛飛!前華為美研CTO創業,要讓機器人理解物理世界

▲胡魯輝第一個與AI相關(guan)的(de)專利

二、瞄準AI 2.0的機會,再次投身創業浪潮

2015年(nian),以CNN卷積神經網絡模型為核心的計算機視覺技術,正式拉開了AI 1.0感知智能時代的(de)序(xu)幕。2016年,AlphaGo擊敗圍棋世界冠(guan)軍李世石,AI迎來了重(zhong)要的(de)高光時刻,受到廣泛關注。

在AI 1.0時代,胡魯輝看中了其中的機遇,選擇在2018年(nian)回國(guo),奔赴上海、北京兩地創業。

“那次創業,主要聚焦在智慧零售(shou)方面的人工智能技術的應用,”胡魯輝說,“當時AI技術的特點是垂直(zhi)性特別強,需(xu)要(yao)在垂直領域進行(xing)應(ying)用,也和永(yong)輝(hui)、京(jing)東、騰訊等平臺進行(xing)了合作。”

而現在,當AI已經邁入2.0時代(dai),帶來了(le)平(ping)臺式的變革。

在胡魯(lu)輝看來,AI 2.0時代蘊(yun)藏著比上一個時代更(geng)多的機會,會對人類(lei)的生活、工作、產(chan)業等(deng)產(chan)生更(geng)大的影響,并且還更(geng)容(rong)易落地(di)。

所以,他的(de)(de)第(di)二次(ci)創業(ye)開(kai)始(shi)(shi)了。他找(zhao)到了之前在微軟、華為、Meta的(de)(de)一些同事,組(zu)成(cheng)了公司(si)的(de)(de)核心創始(shi)(shi)團隊,公司(si)的(de)(de)研(yan)發團隊也(ye)基本都是(shi)畢業(ye)于國內(nei)外知名(ming)高校的(de)(de)碩士、博士、博士后。

面對(dui)深圳、上海等(deng)地(di)發出的落地(di)邀(yao)約,老(lao)家(jia)在浙江寧(ning)波的胡(hu)魯輝最終(zhong)決(jue)定(ding)將(jiang)公司(si)設立在杭州的菜鳥智谷(gu)產業園(yuan)。

智澄AI的成立,還得(de)到了投資(zi)界、政(zheng)府部門等多方面的支(zhi)持(chi)。

胡(hu)魯(lu)輝表(biao)示(shi),公司在(zai)成(cheng)立(li)前就已(yi)成(cheng)功融資,不久后(hou)投(tou)(tou)資人還繼續追(zhui)加投(tou)(tou)資。同(tong)時當地政府部門也很重視,把智澄評為AI杭州市(shi)余(yu)杭區海外高層(ceng)次領軍人才項(xiang)目,還在(zai)資金等多(duo)方(fang)面給予大力支持(chi)。

對標李飛飛!前華為美研CTO創業,要讓機器人理解物理世界

▲今年7月,智澄AI在杭州(zhou)開業

三、低成本機械臂,也能實現具身智能

在AI 2.0時代,下一個爆發點及落地大方向將是AI for Robotics,而(er)智澄AI正是瞄(miao)準(zhun)了這一點。

“我們是一家通用人工智能公司,核心技術是理解物理世界的模型,”胡魯輝解釋道,“但是我們的產品并非是模型,而是具身(shen)智(zhi)能,也就是人工智能機器人。”

從前年年底,胡魯輝就誕生了讓人工智能理解物理世界的想法,并開始思考如何實施。這就要求模型不僅理解編程或語言處理,更要深(shen)入到物理世界的(de)具體應用(yong)中去

今年5月開(kai)始,智(zhi)澄AI的人(ren)(ren)工(gong)智(zhi)能機器(qi)(qi)人(ren)(ren)原型一(TR1)、原型二(TR2)基本完成,已經進入了(le)(le)生產環(huan)節,并且和一些企業(ye)達成了(le)(le)合作,開(kai)始了(le)(le)商業(ye)化之路。胡(hu)魯輝將智(zhi)澄AI的人(ren)(ren)工(gong)智(zhi)能機器(qi)(qi)人(ren)(ren)命(ming)名為TR,即Transforming?Robot。

“雖然模型研發的時間比較長,但是集成智能本體的時間較短,迭代速度也很快,現在基本上兩個月(yue)就實現了一次(ci)迭代。”胡魯輝說。

對標李飛飛!前華為美研CTO創業,要讓機器人理解物理世界

對標李飛飛!前華為美研CTO創業,要讓機器人理解物理世界

▲智澄AI的(de)TR2雙(shuang)臂(bei)機器人

不久前,智澄AI聯合了來自哈佛大學、清華大學的人工智能專家,推出了一種低成本的通用人工智能機器人學(xue)習(xi)框架(jia)(GRLF)

把這個(ge)框架裝在機械臂上,機械臂仿佛變成了具(ju)有(you)視覺(jue)能力(li)、感知(zhi)能力(li)的(de)(de)個(ge)體(ti),能夠像(xiang)人一樣(yang)去執行精細的(de)(de)模仿學(xue)習任務。

它可(ke)以(yi)完全擺脫對仿真環(huan)境的依賴(lai),實(shi)現從數據采集、模(mo)型(xing)訓練(lian)到模(mo)型(xing)部(bu)署的端到端實(shi)景操作,還(huan)可(ke)以(yi)對多種物體進行放置、排序、操縱,具備(bei)了(le)一定的通(tong)用能力。

對標李飛飛!前華為美研CTO創業,要讓機器人理解物理世界

▲裝(zhuang)上了(le)通用(yong)人工智(zhi)能(neng)機(ji)器人學習(xi)框架的機(ji)械臂正在執行不同的任務

縱觀目(mu)前的(de)(de)機器(qi)(qi)人(ren)行業,胡魯輝覺得,許多企業的(de)(de)產品還處于演示、研究和(he)教育(yu)的(de)(de)階段,難以實現機器(qi)(qi)人(ren)真正的(de)(de)應用。機器(qi)(qi)人(ren)行業不(bu)僅(jin)面臨著成(cheng)本高、價格高的(de)(de)挑戰,還存在泛(fan)化能(neng)力不(bu)足的(de)(de)問題,機器(qi)(qi)人(ren)難以適應不(bu)同場(chang)景(jing)需求和(he)環(huan)境。

所以,他希望智澄AI能夠將通用(yong)人工智能(neng)真正應用(yong)到(dao)大眾的工作和生活中,讓機器人實現像人一樣的智能。

“很多公司都專注于制造機器人,讓機器人能夠完成某項工作。但我們想做的是能(neng)夠感知、理解物(wu)理世界的機器人,它具有推理和思考(kao)能(neng)力(li),能(neng)夠(gou)與外界進行智(zhi)能(neng)的交互(hu),而目前國(guo)內還(huan)沒有這類(lei)企(qi)業。”胡魯輝說。

在他的(de)計劃(hua)里,智澄AI會繼續圍(wei)繞實(shi)際(ji)應用場景、通過技術(shu)創新和突破(po)來(lai)加快(kuai)產品的(de)迭代,并且(qie)繼續推進和不同企業的(de)合作(zuo),讓產品的(de)應用落到實(shi)地。

四、對標李飛飛,讓AI走出“洞穴”

要讓(rang)AI走出“洞穴(xue)”,就需(xu)要AI直接接觸真實的物(wu)理世界(jie)。

今年4月,“AI教母”李飛(fei)飛(fei)創辦了一家“致力于構建能夠感知、生成并與 3D 世界互動的大型世界模型的空間智能公司”——World Labs

“我(wo)們現在(zai)看(kan)到(dao)的(de)大(da)型(xing)語(yu)(yu)言(yan)模型(xing)和多模態語(yu)(yu)言(yan)模型(xing),它們是底層表(biao)達(da)其實是一種一維表(biao)示(shi),”李飛飛在(zai)此前接受的(de)公(gong)開采訪中(zhong)曾說道,“而空間智能是對世界的(de)三維表(biao)達(da),從(cong)算法的(de)角(jiao)度來看(kan),這(zhe)是在(zai)用不(bu)(bu)同(tong)方式處理數據并從(cong)中(zhong)獲得不(bu)(bu)同(tong)類型(xing)的(de)輸出(chu),最后解決(jue)不(bu)(bu)同(tong)的(de)問題。”

簡單來說,李飛(fei)飛(fei)的(de)空間(jian)智能(neng)(neng)就是要讓人工智能(neng)(neng)直接(jie)繞過一切(qie)中間(jian)障(zhang)礙(ai),直接(jie)地感受、理解所(suo)身處的(de)三維世界(jie),然后(hou)采取一些行動(dong)。

而胡魯輝的想法,剛(gang)好和李飛(fei)飛(fei)不謀而合。

前年年底,他萌生出了“理解物理世界”的想法。“最初,我們關于物理智能的想法其實沒有多少人接受,畢竟這是比較有挑戰性的,”胡魯輝說,“通用人工智能有不同的實現方式,很多人都在探索,但通常都會采用大模(mo)型的方式。”

但是他認為,現有的多模態大模型只能局限于訓練的范圍中,對外界的理解還是有很大局限性。只(zhi)有讓人工智能做真(zhen)正(zheng)理解物理世界,才能實現通用。

這也(ye)正是胡魯輝(hui)創辦智澄(cheng)AI的(de)愿(yuan)景所在。

不過,在走向通用(yong)人(ren)工智能(neng)的路(lu)上(shang),還是面臨著(zhu)不少的阻礙,不僅包(bao)括(kuo)在算力、數據(ju)、算法方(fang)面,也包(bao)括(kuo)在真正的實際應用(yong)落(luo)地上(shang)。胡魯輝歸納(na)出了“兩(liang)個20”來概括(kuo)當前人(ren)工智能(neng)發展的差距:

第一個“20”是從算(suan)力(li)的角度,他提(ti)到如果(guo)讓AI和人(ren)同時(shi)創作(zuo)一(yi)首詩或一(yi)幅(fu)畫,人(ren)可(ke)能(neng)只需(xu)(xu)要要20瓦的電量,而AI需(xu)(xu)要耗(hao)(hao)費(fei)巨大的電量,并且(qie)像(xiang)OpenAI大模型的訓練經常(chang)需(xu)(xu)要耗(hao)(hao)費(fei)數億美元。

第二個“20”是從數據量的(de)角度(du),人類可(ke)能(neng)花費(fei)20小(xiao)(xiao)時就能(neng)掌握很復雜的(de)事情(qing),例如學車,但(dan)是AI可(ke)能(neng)要花費(fei)數(shu)億個(ge)小(xiao)(xiao)時的(de)數(shu)據進行訓練。

要實現通用人工智能,還是道阻且長。

五、結語:AGI的到來,會是機器人的“iPhone”時刻”

通用人(ren)工(gong)智能,到底還(huan)需(xu)要多久(jiu)才會(hui)到來(lai)呢?

沿著物理智能的路徑,胡魯輝覺得,可能還需要3到(dao)5年左右。而等到通用人工(gong)智(zhi)能實現的(de)那一刻的(de)到來,也將會給機器(qi)人領域帶來顛(dian)覆性的(de)變革。

這是機器人“iPhone 時刻”。就如同當年iPhone的(de)(de)橫(heng)空出世,它作(zuo)為一個突(tu)破(po)性的(de)(de)硬件(jian)平臺(tai),帶動了整個軟件(jian)應用生態(tai)的(de)(de)發展(zhan)一樣,通用人工智能也(ye)會(hui)創造(zao)出一個蘊含(han)著(zhu)巨大(da)價值(zhi)的(de)(de)生態(tai)。

它作為一個相對(dui)標準化的模型、軟件,會走向平臺化,可(ke)以(yi)廣泛地應用(yong)到不同的機器人(ren)上,重新定義人(ren)們的生活方式。

那個時候,機器人會成為一個更為廣泛的概念,不止是我們現在所熟悉的人形機器人,而是一切都會(hui)走(zou)向機器人化,重新定(ding)義每個人的(de)生活方式(shi)。

這個時刻的曙(shu)光,已經逐漸顯現了(le)。