DIPO
雙狀態(tài)約束×復(fù)雜數(shù)據(jù)驅(qū)動應(yīng)用于具身智能仿真的3D鉸鏈物體生成新范式
在具身智能從理解環(huán)境向與環(huán)境交互進化的當下,構(gòu)建真實且可交互的仿真環(huán)境是重要路徑。單一剛體生成已難滿足需求,機器人需要面對的是柜門、抽屜、微波爐等大量具有物理約束的鉸鏈物體。受限于復(fù)雜的運動學(xué)結(jié)構(gòu),高質(zhì)量3D鉸鏈物體資產(chǎn)極為稀缺。
地平線與合作者們提出DIPO,創(chuàng)新性地利用“靜止+活動”雙狀態(tài)圖像作為條件,結(jié)合思維鏈(Chainof Thought)圖推理,僅需兩張圖片實現(xiàn)結(jié)構(gòu)合理、運動一致、可供機器人交互操作的鉸鏈3D資產(chǎn)生成。此外,還打造了自動化鉸鏈資產(chǎn)構(gòu)建鏈路,開源了大規(guī)模復(fù)雜鉸鏈物體數(shù)據(jù)集PM-X。為機器人操作和通用場景仿真下的鉸鏈物體生成開啟了新的范式。該成果已被學(xué)術(shù)頂會NeurIPS2025錄用。
?技術(shù)報告:
https://arxiv.org/abs/2505.20460
?Huggingface Demo:
https://huggingface.co/spaces/HorizonRobotics/DIPO
?PM-X數(shù)據(jù)集:
https://huggingface.co/datasets/HorizonRobotics/DIPO-Dataset
? 項目主頁:
https://rq-wu.github.io/projects/DIPO
行業(yè)痛點:3D鉸鏈物體的資產(chǎn)荒
邁向通用具身智能,需要機器人需要在仿真環(huán)境中與冰箱、烤箱等復(fù)雜鉸鏈(可活動關(guān)節(jié))物體進行深度交互訓(xùn)練。然而此類資產(chǎn)的構(gòu)建面臨“采集難、建模慢、數(shù)據(jù)簡”的挑戰(zhàn):真實物體的關(guān)節(jié)參數(shù)與運動范圍測量成本極高;人工逐件裝配與URDF標注耗時費力;主流數(shù)據(jù)集(如 PartNet-Mobility)平均部件數(shù)不足5個,其低復(fù)雜度結(jié)構(gòu)滯后于真實世界的物理多樣性,嚴重制約了智能體的場景泛化能力。
模型方案:雙狀態(tài)輸入+思維鏈推理
DIPO摒棄了“單圖猜結(jié)構(gòu)”的傳統(tǒng)路徑,開辟了一條新的技術(shù)路線:通過輸入物體“靜止狀態(tài)圖”與“關(guān)節(jié)活動狀態(tài)圖”這一對雙狀態(tài)圖像,顯式編碼關(guān)鍵的運動信息。

提出了一個雙狀態(tài)注入模塊,通過注意力機制讓模型學(xué)習(xí)“靜止”與“活動”兩張圖像之間的差異,捕捉圖像對間的關(guān)聯(lián)特征,從而生成可靠的部件布局與關(guān)節(jié)參數(shù)。為了解決復(fù)雜物體部件連接關(guān)系(如多層抽屜、雙開門)的識別難題,DIPO引入了基于思維鏈的圖推理器。 這個推理器模擬了人類的認知過程,分步驟進行邏輯推斷,大幅提升了模型對復(fù)雜拓撲結(jié)構(gòu)的理解的準確性。
數(shù)據(jù)引擎:自動化構(gòu)建復(fù)雜資產(chǎn)
為了增強模型對復(fù)雜物體的泛化能力,靠現(xiàn)有的簡單數(shù)據(jù)集(如 PartNet-Mobility)是遠遠不夠的。為此,DIPO提出了一套全自動的數(shù)據(jù)集構(gòu)建流程。

基于此流程,發(fā)布了大規(guī)模數(shù)據(jù)集PM-X。該數(shù)據(jù)集單個鉸鏈物體平均部件數(shù)達到19.4個,現(xiàn)有數(shù)據(jù)集僅為5-8個,極大地豐富了訓(xùn)練數(shù)據(jù)的結(jié)構(gòu)多樣性與生成模型的泛化性。

實驗結(jié)果:SOTA 性能表現(xiàn)
實驗表明,DIPO在多項指標上均超越了現(xiàn)有最先進方法,在PartNet-Mobility測試集與分布外的ACD測試集上,重建指標與圖預(yù)測準確率均顯著高于基線方法。


DIPO與基線模型的可視化對比。 涵蓋PM、ACD數(shù)據(jù)集及真實場景樣本,展示了基于雙狀態(tài)圖像輸入的連接圖預(yù)測與鉸鏈生成結(jié)果,紅框標記了基線方法的連接錯誤。

總結(jié)與展望
DIPO通過引入雙狀態(tài)圖像這一低成本、高信息的輸入模態(tài),結(jié)合思維鏈推理與自動化數(shù)據(jù)工廠,解決復(fù)雜鉸鏈物體生成的難題。這項工作不僅大幅提升了生成資產(chǎn)的結(jié)構(gòu)合理性與運動一致性,更為具身智能仿真環(huán)境的快速構(gòu)建提供了一種高效、可擴展的新范式。DIPO的代碼與PM-X數(shù)據(jù)集已向社區(qū)開源,持續(xù)推動3D生成與具身智能仿真領(lǐng)域的技術(shù)發(fā)展。
-
機器人
+關(guān)注
關(guān)注
213文章
31066瀏覽量
222151 -
仿真
+關(guān)注
關(guān)注
54文章
4480瀏覽量
138214 -
具身智能
+關(guān)注
關(guān)注
0文章
387瀏覽量
857
原文標題:開發(fā)者說|DIPO:應(yīng)用于具身智能仿真的3D鉸鏈物體生成新范式
文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
基于3D數(shù)據(jù)卷積神經(jīng)網(wǎng)絡(luò)的物體識別
英特爾? 具身智能大小腦融合方案發(fā)布:構(gòu)建具身智能落地新范式
《具身智能機器人系統(tǒng)》第1-6章閱讀心得之具身智能機器人系統(tǒng)背景知識與基礎(chǔ)模塊
【「具身智能機器人系統(tǒng)」閱讀體驗】+初品的體驗
【「具身智能機器人系統(tǒng)」閱讀體驗】1.初步理解具身智能
【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人的基礎(chǔ)模塊
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+具身智能芯片
全場應(yīng)變測量與仿真優(yōu)化分析系統(tǒng)MatchID-2D/3D
PYNQ框架下如何快速完成3D數(shù)據(jù)重建
人工智能系統(tǒng)VON,生成最逼真3D圖像
華為基于AI技術(shù)實現(xiàn)3D圖像數(shù)字服務(wù)
PLC如何應(yīng)用于建筑的3D打印?
3D人體生成模型HumanGaussian實現(xiàn)原理
DIPO框架實現(xiàn)應(yīng)用于具身智能仿真的3D鉸鏈物體生成新范式
評論