
機器人前瞻(公眾號:robot_pro)
作者?|??許麗思
編輯?|??漠影
對(dui)生成式AI的想象力(li),正在從電子屏幕中的數(shu)字世界(jie)邁向(xiang)物(wu)理世界(jie)。
而賈奎所做的,便是教生成式AI在仿真模擬平臺中學會物理,能搞懂物理世界的運行規律和千萬種可能性,從而讓具身智能硬件直(zhi)接與物(wu)理世(shi)界進行智能交互(hu)。
他是一家通用具身智能技術研發公司“跨(kua)維智能”的創始人,同(tong)時也是(shi)香港(gang)中(zhong)文大(da)學(xue)(深圳)的教授。翻看他的過往履歷,可以說是(shi)相當豐(feng)富:曾先后在中(zhong)科院(yuan)深圳先進技術研究院(yuan)、香港(gang)中(zhong)文大(da)學(xue)、伊(yi)利諾(nuo)伊(yi)大(da)學(xue)香檳分校(xiao)先進數字科學(xue)研究中(zhong)心、澳門大(da)學(xue)及(ji)華南理工(gong)(gong)大(da)學(xue)任教,從事人工(gong)(gong)智能、生(sheng)成式(shi)三維(wei)建模(mo)與學(xue)習、三維(wei)感知大(da)模(mo)型等領域的研究。
賈奎帶領著團隊成為國內(nei)最(zui)早開始研究AI三(san)維應用和物理智能的一批人,用全仿真數據就能完成模型訓練和機器人抓取(qu)99.9%以上(shang)成功率(lv),這在業內是首家。
目前,跨維智能的具身智能解決方案已經成功落地多個行業場景,在美的、中國中車、五菱等企業生產場景中進行應用。公司今年(nian)營收可達數千萬(wan)元(yuan)人民幣,下一(yi)年(nian)有(you)望實(shi)現過億。
不久(jiu)前(qian),機器人(ren)前(qian)瞻在跨維智能(neng)位于深圳南山(shan)軟件產業基地的辦(ban)公室見到了賈奎。他看起來做事總是雷厲風行、充滿干勁(jing),搞科研、教學和創業排滿了日程。
憑借(jie)著(zhu)熱愛和多年積(ji)累的(de)技(ji)術優勢(shi),賈(jia)奎帶領著(zhu)跨維(wei)智能在具身智能賽道(dao)嶄露頭角,為機器人的(de)產(chan)業化應用提供了(le)全新(xin)思路。
▲跨(kua)維智能(neng)創(chuang)始(shi)人(ren)、香港中文大學(深圳(zhen))終身教授 賈奎(kui)
一、用懂物理的AI感知攻克泛制造痛點,獲聯想創投青睞
2010年,AI、計算機視覺和自(zi)然語言處理(li)從非(fei)深(shen)度(du)學(xue)習向深(shen)度(du)學(xue)習轉變,二維圖(tu)像(xiang)層面(mian)識別理(li)解(jie)問(wen)題(ti)也逐漸得到(dao)了解(jie)決。
二維圖像層面的識別理解,就像一個人認知層面的智能,比如看到一幅圖像能知道圖像里面是什么內容。而當2015年之后,AI的應用滲透到AR、VR、元(yuan)宇宙和機(ji)器人等方面(mian),AI本(ben)身和(he)深度學習的范式開始(shi)發生改變。
這是從二維平面空間向三維物理空間的轉變。
剛好趁著這個時機,2016年,賈奎回國來(lai)到華(hua)南理工大學任教,選擇用(yong)新型 AI 作為攻克三維感知的研究方向。
?2018 年起,賈奎在華南(nan)理(li)(li)工大學 “幾何(he)感知與智能(neng)” 實驗室中,嘗試研發能(neng)夠處理(li)(li)信號形式與物(wu)理(li)(li)世界關聯的深度(du)學習(xi)算法(fa),并且以(yi)自研的Sim2Real技術為(wei)核(he)心,通過物(wu)理(li)(li)引擎去合(he)成3D 仿(fang)真數據。
當時,國內還沒有企業涉及這一領域,實驗室成為國內最早研究(jiu)AI與三維(wei)空間應(ying)用問題(ti)的團(tuan)隊,這(zhe)也是如今的(de)跨(kua)維智能的(de)雛形。
2020年,團隊已經完成了一些從(cong)底(di)層到(dao)應(ying)用的(de)技(ji)術積(ji)累,賈奎也看(kan)到(dao)了生成式AI在三維感知層面的(de)商業化潛(qian)在機會,開始思考(kao)技(ji)術產業化的(de)價值和落地方向。
要落地在哪里呢?賈奎介紹,一般有三個方向:一是AR、VR、元宇宙,二是無人駕(jia)駛,三是機器人。
最終,賈奎選擇了在智能(neng)制造的(de)場景里,將搞(gao)懂(dong)了物理(li)世界的(de)AI應(ying)用在(zai)機器人身上進行(xing)產業落地。
“智能制造是剛需,因為它存在著大量痛點。在這之前,工業領域里基本都是找到一個行業痛點,就采用項目研發的方式來解決問題,但使用AI范式解決(jue)通用性問題是更重要的,”賈奎說,“我們希望機器人可以有‘大腦’、‘眼睛’,不管(guan)是面對汽車(che)制造、3C制造還是化工行業、家電行業等,都(dou)能在產(chan)線上(shang)柔性、靈(ling)活地(di)進行生產(chan)。”
相較于(yu)傳統(tong)的(de)單(dan)點(dian)項(xiang)目研(yan)發式(shi),搞(gao)懂了物理世界的(de)AI能夠讓機器人的(de)泛化(hua)能力得到(dao)極(ji)大提升,不拘于(yu)特定條件和場景,這能夠帶來研(yan)發成本、產品硬件成本、落地部署成本等大幅度降低。
從高校老師到創業者,賈奎坦言,因為長期在“象牙塔”中,可能會存在不了解行業、不知道社會真正需要什么的情況。“都是一段拿著錘子(zi)找釘子(zi)的過程。”
目前,跨維(wei)智(zhi)能(neng)已(yi)經建立起一個能(neng)將生成AI從文(wen)本、圖像視頻(pin)擴展到三維(wei)物理世界的實力強(qiang)勁的團隊,研(yan)發人(ren)員(yuan)占比(bi)達70%以上。
吳迪是(shi)資深傳感器專家,負(fu)責相(xiang)機(ji)等硬件(jian)研發(fa),曾(ceng)任騰訊高級(ji)(ji)算法工程(cheng)師,研發(fa)機(ji)器視覺(jue)產品;作為華(hua)為高級(ji)(ji)算法工程(cheng)師負(fu)責華(hua)為首款雙攝手機(ji)三維重建算法,并曾(ceng)在霍尼韋爾等企業擔(dan)任高級(ji)(ji)工程(cheng)師。
賈奎還邀請了原三星首(shou)席(xi)工程(cheng)師、曾主導了多款機械臂、移動機器人和復合機器人的研發及量產的金毅博士加入團隊(dui)擔任CTO,負責加強(qiang)機器(qi)人(ren)本體控(kong)制的(de)協調(diao)性和靈活性。
成立至今,跨維智能已經完成了四輪融資,已獲得來自松禾資本、真(zhen)格基金、聯創資本、聯想創投等知名機構(gou)投資。現(xian)在(zai)(zai),下一輪融資工作正在(zai)(zai)快(kuai)速推動中。
二、用100%合成數據,實現99.9%抓取成功率
數據(ju)匱乏,是橫亙在生(sheng)成(cheng)式AI從二(er)維跨(kua)到三維的一道高(gao)墻。
“以機器人(ren)為例,機器人(ren)需要結合現實(shi)物理環境相關的(de)數據、采用(yong)多(duo)種(zhong)信號形式進(jin)行處理,而(er)二維(wei)的(de)互聯網上(shang)不存在三維(wei)物理世界的(de)機器人(ren)數據,無法通過互聯網方式對這些數據進(jin)行采集和(he)傳播(bo)。”賈奎說。
這也是跨維智能在將生成式AI和物理世界相結合的過程中,與傳統AI路徑最大的不同之處所在——采用基于物理規(gui)律的(de)生成式AI合成的(de)數據去訓練大模型,再將大模型連(lian)接上機械臂、機器人(ren)等不同的(de)具(ju)身智(zhi)能(neng)硬件,讓其學會智(zhi)能(neng)化操作。
為什么不是(shi)真實(shi)數(shu)據,而是(shi)合成數(shu)據?
“AI的智能來自于所提供的足夠多的數據,而對具身智能來說,用(yong)真實數據采集的方式是無法實現落地級(ji)應用(yong)的,”賈奎說,“唯一(yi)做(zuo)到(dao)(dao)的是(shi)無人駕駛,因為道路上本(ben)來就有(you)大(da)量(liang)的車輛在(zai)運行。但是(shi)對機器人來說,目前遠沒有(you)達(da)到(dao)(dao)這個(ge)數量(liang)級,所以需要一(yi)個(ge)更低成本(ben)、高效、快速的方法。”
眼下,業內多數基(ji)于3D視覺的(de)(de)機(ji)械(xie)臂等(deng)產(chan)品,控制系統(tong)的(de)(de)算法訓練采用的(de)(de)就是真實(shi)數據。但是不同場景采集(ji)的(de)(de)數據難以實(shi)現通用,繁瑣的(de)(de)數據采集(ji)、清洗、標注、增強等(deng)處理過(guo)程,一環又一環地導致數據成本的(de)(de)增加。
賈奎介紹,具身智能機器人需要三類數據:一是機器人身上不同類型的傳感器數據,如視覺傳感器、力矩傳感器和觸覺傳感器等;二是機器人(ren)自身狀(zhuang)態數據,如在執行動作的過程中關節、角速度等自身狀態數據;三是驅動機器人進行各種動作時,動作本(ben)身的數據。前兩類(lei)數據(ju)是(shi)(shi)模型的(de)輸入(ru),最后一類(lei)是(shi)(shi)模型的(de)輸出。
這三類數據,會通過sim2real和物理(li)引(yin)擎(qing)進(jin)行放大,例如要讓機(ji)器人(ren)學習(xi)咖(ka)啡(fei)(fei)拉(la)花(hua)這個動作(zuo)(zuo),就可以將(jiang)軌跡動作(zuo)(zuo)嵌入虛擬(ni)物(wu)理(li)世界,然后變換(huan)不同的環境、咖(ka)啡(fei)(fei)杯(bei)、咖(ka)啡(fei)(fei)機(ji)等各種物(wu)理(li)條件,成千(qian)上(shang)萬倍地(di)(di)放大數據,從而高(gao)效(xiao)地(di)(di)讓機(ji)器人(ren)學會咖(ka)啡(fei)(fei)拉(la)花(hua)。
最關鍵的還是,在訓練效果上,合成數據能夠更優于真實數據。由于本身就是基于物理規律合成,合成數據天生自帶絕對精確(que)的標(biao)注,這就意味著,AI學習起來效率非常高。另外,合成數據的“全(quan)面性(xing)”是真實(shi)數據難以比擬的(de)。
不需要使用任何一張真實照片,跨維智能就可以完成機械臂等復雜場景作業的3D視覺模型訓練,在多個商業場景中毫米、亞毫米的操作精度要求下,達到99.9%以上的任務成功率。
三、全自動拆解任務訓練機器人,已落地工業制造及商業服務
跨維智能自研的DexVerse? 具身智能引擎,能解決3D數字(zi)資(zi)(zi)產(chan)(chan)生(sheng)產(chan)(chan)、數字(zi)資(zi)(zi)產(chan)(chan)生(sheng)成-GenAI、合成數據生(sheng)成等問題(ti)。
在一些(xie)工業制造或商業服務場(chang)景中,無(wu)需(xu)研發人員(yuan)的(de)參與(yu),只需(xu)要輸入一個操作對象(xiang),引擎就能夠利用大(da)語言模型(xing)自動(dong)拆解所涉及到的(de)機器(qi)人技能及子技能,進而(er)自動(dong)化地生成仿真所需(xu)對象(xiang)、場(chang)景等數字資產讓模型(xing)進行訓(xun)練。
▲引擎正在對“用積木搭(da)建一個小鹿”這一任務進(jin)行(xing)拆解
▲引擎(qing)自動(dong)化生成仿真(zhen)對(dui)象后(hou),進行模型訓練(lian)
▲模型訓練完畢后(hou),導(dao)入一個雙臂(bei)機器人中進行(xing)實操
再加上空間(jian)與具身(shen)智能傳感器——DexSense系列(lie),能(neng)夠(gou)在多種不同角度對圖(tu)像(xiang)進(jin)行(xing)捕捉(zhuo),在不同的光線(xian)條件下都能(neng)穩定地(di)成像(xiang),能(neng)夠(gou)解(jie)決視覺(jue)行(xing)業一直以(yi)來的半透(tou)明物(wu)品的成像(xiang)難點,并且最快可以(yi)實現每秒30幀頻率,接(jie)近人(ren)眼(yan)感知世界的方式。
跨維智能把這樣的“大腦”和“眼睛”相結合,應用于機器人身上,已經落地了汽(qi)車零配(pei)件、金屬加工、工業物流、家電、光伏等三十多個行業,在(zai)美的、中國(guo)中車、五(wu)菱等多家企業生產場景(jing)中進行應用,能夠(gou)賦能泛(fan)制(zhi)造領域的(de)無序分揀、柔性裝配等環節。
例如,在汽車扁平件的上料環節,沖壓件視覺特征點少且表面平整反光,跨維智能3D視覺套件,采用模型預訓練方式現場進行模板匹配,可以應對產品表面反光、環境光等各種干擾,快速成像配合PickWiz 工業軟件進行模板匹配,五分鐘完成調參,大幅減少換產成本。
▲機(ji)器(qi)人正在進行汽車(che)扁平件上下(xia)料工作
在商業服務領域中,其也實現了在無人充(chong)電、卡車換電、按摩機(ji)器人等眾多場景的落地。
▲跨(kua)維智能在無人充電場景的(de)應(ying)用
除(chu)此(ci)之(zhi)外,跨維(wei)智能也正在(zai)通過(guo)賦能人(ren)(ren)形(xing)機器(qi)人(ren)(ren)等(deng)其他硬件本(ben)體,在(zai)一些偏向于家庭(ting)環境的(de)場景中進(jin)行探索。例如,訓練(lian)一個人(ren)(ren)形(xing)機器(qi)人(ren)(ren)如何學(xue)會(hui)自主煮泡(pao)面:
結語:押注具身智能,是因為有落地的希望
賈奎相信,具身智能是一個比無人駕駛更大的賽道,同時也是更長(chang)周期、具有相(xiang)當強生命力(li)的賽(sai)道。“具身智能現在(zai)之所(suo)以(yi)能夠被(bei)‘炒作’,是因為大家有(you)訴求,并且覺得從認(ren)知層面(mian)的AGI到(dao)物理(li)層面(mian)的AGI有(you)希望落地。”
具身智能雖然也會存在著波峰波谷,但是相較于無人駕駛明確的落地場景——路面,具身智能機器人的落地(di)場景則(ze)廣(guang)泛(fan)得多,從工廠、辦公(gong)樓、超(chao)市到家庭等,有著無限的機會。
這也對創業企業在技術和商業落(luo)地(di)上的平衡方面提出了更高的要求(qiu)。
當下(xia),跨(kua)維智(zhi)能(neng)(neng)正在把具(ju)身(shen)智(zhi)能(neng)(neng)“大腦(nao)”快速拓展到工業(ye)外(wai)的(de)商業(ye)場景,并且將目光(guang)投向人形機器人身(shen)上。
賈奎透露,公司預計很快會推出自己的人形機器人產品,人形機器人由金毅(yi)博士帶隊研(yan)發。
“與工業(ye)機器人(ren)不同,人(ren)形機器人(ren)是一個(ge)全新的行業(ye),在(zai)(zai)現在(zai)(zai)這個(ge)時間點,許(xu)多(duo)公司(si)還不是很成熟,我們想要自己打造(zao)一個(ge)軟硬結合(he)、更好(hao)的人(ren)形機器人(ren)平臺(tai)。”他說(shuo)。
人形機器人會為整個行業帶來范式革命,賈奎也有(you)信心(xin),已(yi)經跑(pao)通了一些具(ju)身(shen)智能應用場(chang)景的跨維智能,會在(zai)這條(tiao)路上走得(de)更快、更好(hao)。