在機(jī)器人學(xué)習(xí)領(lǐng)域,如何讓AI真正“看懂”三維世界一直是個(gè)難題。
(相關(guān)資料圖)
VLA模型通常建立在預(yù)訓(xùn)練視覺語言模型(VLM)之上,僅基于2D圖像-文本數(shù)據(jù)訓(xùn)練,缺乏真實(shí)世界操作所需的3D空間理解能力。
當(dāng)前基于顯式深度輸入的增強(qiáng)方案雖有效,但依賴額外傳感器或深度估計(jì)網(wǎng)絡(luò),存在部署難度、精度噪聲等問題。
為此,上海交通大學(xué)和劍橋大學(xué)提出一種增強(qiáng)視覺語言動(dòng)作(VLA)模型空間理解能力的輕量化方法Evo-0,通過隱式注入3D幾何先驗(yàn),無需顯式深度輸入或額外傳感器。
該方法利用視覺幾何基礎(chǔ)模型VGGT,從多視角RGB圖像中提取3D結(jié)構(gòu)信息,并融合到原有視覺語言模型中,實(shí)現(xiàn)空間感知能力的顯著提升。
在rlbench仿真實(shí)驗(yàn)中,Evo-0在5個(gè)需要精細(xì)操作的任務(wù)上,平均成功率超過基線pi0 15%,超過openvla-oft 31%。
Evo-0:實(shí)現(xiàn)2D–3D表征的融合
Evo-0提出將VGGT作為空間編碼器,引入VGGT訓(xùn)練過程中針對(duì)3D結(jié)構(gòu)任務(wù)提取的t3^D token。這些token包含深度上下文、跨視圖空間對(duì)應(yīng)關(guān)系等幾何信息。
模型引入一個(gè)cross-attention融合模塊,將ViT提取的2D視覺token作為query,VGGT輸出的3D token作為key/value,實(shí)現(xiàn)2D–3D表征的融合,從而提升對(duì)空間結(jié)構(gòu)、物體布局的理解能力。
融合后的token與語言指令共同輸入凍結(jié)主干的VLM,預(yù)測動(dòng)作由flow-matching策略生成。訓(xùn)練中,僅微調(diào)融合模塊、LoRA適配層與動(dòng)作專家,降低計(jì)算成本。
研究團(tuán)隊(duì)通過在5個(gè)rlbench模擬任務(wù)、5個(gè)真實(shí)世界操作任務(wù)上的全面實(shí)驗(yàn),以及在5種不同干擾條件下的魯棒性評(píng)估,證明了空間信息融合方法的有效性。在所有設(shè)置中,Evo-0都一致地增強(qiáng)了空間理解,并且優(yōu)于最先進(jìn)的VLA模型。
除了上述展示的效果外,在超參數(shù)實(shí)驗(yàn)中,為了分析超參數(shù)如何影響模型性能,團(tuán)隊(duì)在5個(gè)RLBench任務(wù)上進(jìn)行了額外的實(shí)驗(yàn)。他們重點(diǎn)關(guān)注兩個(gè)方面:訓(xùn)練步數(shù)和執(zhí)行步數(shù),并評(píng)估它們對(duì)任務(wù)成功率的影響。
值得注意的是,僅用15k步訓(xùn)練的Evo-0已經(jīng)超過了用20k步訓(xùn)練的π0,這表明Evo-0具有更高的訓(xùn)練效率。
在真機(jī)實(shí)驗(yàn)部分,實(shí)驗(yàn)設(shè)計(jì)五個(gè)空間感知要求高的真實(shí)機(jī)器人任務(wù),包括目標(biāo)居中放置、插孔、密集抓取、置物架放置及透明物體操作等。所有任務(wù)均對(duì)空間精度容忍度極低。
Evo-0在全部任務(wù)中均超越基線模型pi0,平均成功率提升28.88%。尤其在插孔與透明物抓取任務(wù)中,表現(xiàn)出對(duì)復(fù)雜空間關(guān)系的理解與精準(zhǔn)操控能力。
在魯棒性實(shí)驗(yàn)中,論文設(shè)計(jì)了5類干擾條件:(1)引入一個(gè)未見過的干擾物體,(2)背景顏色的變化,(3)目標(biāo)位置的位移,(4)目標(biāo)高度的變化,(5)相機(jī)角度的變化。Evo-0均有相對(duì)魯棒的結(jié)果,并且強(qiáng)于基準(zhǔn)pi0。
綜上所述,Evo-0的關(guān)鍵在于通過VGGT提取豐富的空間語義,繞過深度估計(jì)誤差與傳感器需求,以插件形式增強(qiáng)VLA模型的空間建模能力,訓(xùn)練高效、部署靈活,為通用機(jī)器人策略提供新的可行路徑。
論文鏈接:https://arxiv.org/abs/2507.00416





























