機器人前瞻(公眾號:robot_pro)
作者?|??許麗思
編輯?|??漠影

機器人前瞻7月4日報道,今天,極佳視界發布具身基礎模型GigaBrain-0 Preview,90%以上的訓練數據來自該公司自研的世界模型平臺,不到10%來自真機實采數據,成為全球首個主要依靠世界模型生成數據驅動的端到端VLA具身基礎模型。

另外(wai),該公(gong)司還(huan)將于近期(qi)發布面向具身智能方向的世界模型(xing)平(ping)臺Preview版(ban)本。

極佳(jia)視界成立(li)于2023年,是一家(jia)空間(jian)智(zhi)能公司(si),致力(li)于將(jiang)視頻(pin)生成提(ti)升到4D世(shi)界模型,使AI大模型具備對4D空間(jian)理解、生成、常識(shi)和(he)推理能力(li),進而實現4D空間(jian)中交互和(he)行(xing)動。

極佳(jia)視(shi)界創(chuang)始人兼CEO黃冠是(shi)清華大學AI方(fang)向(xiang)博士,擁(yong)有超過十(shi)年(nian)的AI技術和產業經驗,曾在微軟(ruan)、三星、地平線等負(fu)責算(suan)法工(gong)作(zuo),擁(yong)有AI、自動駕駛等方(fang)向(xiang)連續創(chuang)業經驗。

GigaBrain-0 Preview的執(zhi)行過程如下:

  • 在輸入端,對RGB圖像與深度信息進行聯合編碼,提升模型對3D空間結構的理解能力以及對復雜場景的感知表征。
  • 在輸出端,系統可利用多種感知模塊的中間輸出(2D框、3D框、6DoF抓取點,末端執行器軌跡等)作為多模態監督信號,增強決策過程的準確性和魯棒性。
  • 引入了面向語言任務拆解的思維鏈(Chain-of-Thought,CoT)機制,將高層用戶指令逐步解析為低層可執行的prompt,實現任務邏輯的結構化分解。與此同時,前序感知模塊輸出的中間結果也為CoT提供了空間推理所需的語義支持。
  • 低層執行prompt將激活對應的action expert模塊,并通過降噪解碼機制生成機器人可執行的動作序列,從而實現從感知到動作的完整控制。

在多(duo)項復雜任(ren)務中,GigaBrain-0 Preview都表現不(bu)錯。

在疊衣(yi)服時,GigaBrain-0不僅(jin)可以(yi)絲(si)滑精細(xi)的(de)完成任(ren)意形態和(he)多種(zhong)款式(shi)的(de)衣(yi)服自動(dong)疊放,而且在疊放過(guo)程中可以(yi)對(dui)中間狀態進行主動(dong)思考,自動(dong)修正疊放方式(shi)和(he)平整度。

機器人保姆級絲滑干家務!九成數據靠仿真,清華系創企發首個具身基礎模型

面對物品擺放混亂的餐桌,模型會自主推理最優策略,先思考餐盤怎么擺放,然后雙臂協同完成垃圾清掃工作。就算人為再次隨機丟棄垃圾,模型也能迅速識別并主動調整策略,反復清掃直至桌面整潔。
機器人保姆級絲滑干家務!九成數據靠仿真,清華系創企發首個具身基礎模型

機器人保姆級絲滑干家務!九成數據靠仿真,清華系創企發首個具身基礎模型

機器人保姆級絲滑干家務!九成數據靠仿真,清華系創企發首個具身基礎模型

在沖倒飲料這(zhe)一類需要雙臂協同(tong)完成長程任(ren)(ren)務(wu)中,GigaBrain VLA模型(xing)實現了對長程任(ren)(ren)務(wu)的(de)子(zi)任(ren)(ren)務(wu)的(de)自(zi)動拆分和(he)模型(xing)指令遵(zun)循。此(ci)外,它(ta)還(huan)對動作進行了平滑性(xing)約束,以確保在飲料不灑出。

機器人保姆級絲滑干家務!九成數據靠仿真,清華系創企發首個具身基礎模型

模型還支持自然語音交互,比如用戶只需一句話就可以觸發餐具擺放任務。
機器人保姆級絲滑干家務!九成數據靠仿真,清華系創企發首個具身基礎模型

機器人保姆級絲滑干家務!九成數據靠仿真,清華系創企發首個具身基礎模型

相比于真機(ji)的(de)實際采集,基(ji)于世界模型的(de)仿(fang)真2.0在數據(ju)獲取效率(lv)上展現(xian)出明顯優勢,其生成效率(lv)可以(yi)達到真機(ji)采集的(de)10-100倍以(yi)上。

這種效(xiao)率提升,不僅可以降低(di)了(le)數據采集(ji)的(de)(de)(de)時(shi)間成(cheng)本,還(huan)使得(de)大規(gui)模、快(kuai)速(su)迭代(dai)的(de)(de)(de)數據生成(cheng)和模型迭代(dai)成(cheng)為可能(neng),為物理(li)世界通用智能(neng)的(de)(de)(de)訓練和測試(shi)提供了(le)支持。