借助機(jī)器人的本體感覺(jué)對(duì)足式運(yùn)動(dòng)進(jìn)行研究已有數(shù)十年。在以往的研究手段中,研究人員往往采用基于模型的方法開發(fā)神經(jīng)網(wǎng)絡(luò)控制器。但是,這類方法無(wú)法在那些現(xiàn)實(shí)世界里沒(méi)有見(jiàn)過(guò)的環(huán)境中得到應(yīng)用。
近年來(lái),為了獲得更好的泛化性和魯棒性,研究者們開始采用無(wú)模型強(qiáng)化學(xué)習(xí),在模擬中訓(xùn)練控制器,然后將學(xué)習(xí)到的策略直接轉(zhuǎn)移到真實(shí)的機(jī)器人上。
那么,如何在無(wú)需遙控器操控的條件下,讓四足機(jī)器人實(shí)現(xiàn)在復(fù)雜地形上自由流暢地行走呢?
近期,來(lái)自美國(guó)加州大學(xué)圣地亞哥分校和麻省理工學(xué)院的研究團(tuán)隊(duì),開發(fā)了一個(gè)可以提高機(jī)器人 3D 感知能力的模型,能夠支配四足機(jī)器人在各種困難地形場(chǎng)景下完成自動(dòng)化行走,比如爬樓梯、踩石頭、在樹林中走路等。
如視頻所示,該四足機(jī)器人的額頭上裝有前置的深度攝像頭,該攝像頭向下傾斜的角度,可以幫助該機(jī)器人前面的兩足,根據(jù)所看到的前方場(chǎng)景和腳下地形做出正確的行動(dòng)決策。但其后面的兩足必須先記住前面看過(guò)的內(nèi)容,才能確保在經(jīng)過(guò)時(shí)踩在正確的位置上。
所以,這中間存在一個(gè)重要的問(wèn)題,即需要一個(gè)短期的 3D 環(huán)境記憶體,能夠使得機(jī)器人的四足都對(duì)三維環(huán)境有良好的感知和模擬。
為此,該團(tuán)隊(duì)構(gòu)建了一種神經(jīng)體積記憶(Neural Volumetric Memory,NVM)架構(gòu),可以先借助自監(jiān)督方法對(duì)視頻幀中的三維特征進(jìn)行學(xué)習(xí),再用幾何變換把這些三維特征投影到同一個(gè)空間下面,最后通過(guò)模型將所有的特征信息融合在一起,讓機(jī)器人對(duì)它所處的 3D 環(huán)境建立起短期記憶。
其中,需要說(shuō)明的是,將上述帶有特征的全部視覺(jué)信息綜合在一起,可以幫助四足機(jī)器人記住其看到的內(nèi)容,以及足部之前做過(guò)的動(dòng)作,并利用這些記憶指導(dǎo)它下一步行動(dòng)。這也表明,NVM 能為機(jī)器人執(zhí)行決策提供可靠的 3D 結(jié)構(gòu)信息,并為足式機(jī)器人利用視覺(jué)進(jìn)行觀察開辟新的可能性。
2023 年 3 月,相關(guān)論文以《用于視覺(jué)運(yùn)動(dòng)控制的神經(jīng)體積記憶》(Neural Volumetric Memory for Visual Locomotion Control)為題發(fā)表在CVPR上,并被選為Highlight論文[1]。

圖丨相關(guān)論文(來(lái)源:arXiv)
據(jù)介紹,該研究始于 2022 年 1 月。在當(dāng)時(shí)的條件下,該團(tuán)隊(duì)先在模擬器環(huán)境下進(jìn)行訓(xùn)練,再轉(zhuǎn)至機(jī)器人上進(jìn)行部署和測(cè)試。NVM 模塊可以令四足機(jī)器人在模擬環(huán)境和真實(shí)世界中穿越復(fù)雜地形,并獲得更好的模擬-真實(shí)泛化結(jié)果。
但是,由于模擬器和機(jī)器人在物理和視覺(jué)方面都存在一些差距,因此需要克服許多有難度的工程問(wèn)題。此外,從模擬器中制定任務(wù),以及做強(qiáng)化學(xué)習(xí)訓(xùn)練所需的代碼,也需要該團(tuán)隊(duì)自行開發(fā)。

圖丨實(shí)際部署(來(lái)源:arXiv)
據(jù)了解,這項(xiàng)成果建立在該團(tuán)隊(duì)之前的一項(xiàng)研究上,此前,該團(tuán)隊(duì)使用強(qiáng)化學(xué)習(xí)和基于 Transformer 的模型,將本體感受和視覺(jué)信息相結(jié)合,使得四足機(jī)器人能夠避開障礙物,在不平整的地面上行走和奔跑 [2]。
“我們目前這項(xiàng)研究是在不同幀上抽取三維特征,把它們放到同一個(gè)三維空間下進(jìn)行合并,而之前的那項(xiàng)研究?jī)H僅將不同幀直接合并起來(lái),當(dāng)做一個(gè)視頻放入卷積神經(jīng)網(wǎng)絡(luò)中,沒(méi)有做太多三維理解?!闭劶氨卷?xiàng)成果取得的進(jìn)展,王小龍表示,“并且,之前機(jī)器人能完成的任務(wù)比較簡(jiǎn)單,不能實(shí)現(xiàn)爬樓梯或踩木樁這種比較困難的任務(wù)。”
不過(guò),該團(tuán)隊(duì)也表示,他們目前開發(fā)的模型還存在一些局限性。首先,不能引導(dǎo)四足機(jī)器人到達(dá)指定的目的地;其次,完成部署后,機(jī)器人只能簡(jiǎn)單地走一條直線,如果看到障礙物,會(huì)通過(guò)另一條直線避開;此外,機(jī)器人還不能精確控制其去向。
從應(yīng)用層面上看,相較于安裝輪子才能走路的機(jī)器人,四足機(jī)器人的通用性更強(qiáng)。比如,其可以用于應(yīng)急救援領(lǐng)域,執(zhí)行受困人員搜救、廢墟清理等任務(wù);用于下水管道探測(cè)等。
后續(xù),該團(tuán)隊(duì)不僅計(jì)劃開發(fā)更多用于規(guī)劃?rùn)C(jī)器人的技術(shù),還打算在四足機(jī)器人上增加機(jī)械臂,來(lái)執(zhí)行抓取、開門等任務(wù);同時(shí),他們也想讓機(jī)器人實(shí)現(xiàn)更多創(chuàng)意性的技能,諸如跳躍、踢球等。
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
31073瀏覽量
222180 -
模型
+關(guān)注
關(guān)注
1文章
3751瀏覽量
52099 -
3D感知
+關(guān)注
關(guān)注
0文章
21瀏覽量
3918
原文標(biāo)題:科學(xué)家開發(fā)可提高3D感知能力的模型,實(shí)現(xiàn)四足機(jī)器人自由行走
文章出處:【微信號(hào):tjrobot,微信公眾號(hào):天津機(jī)器人】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
人形機(jī)器人 3D 視覺(jué)路線之爭(zhēng):激光雷達(dá)、雙目和 3D - ToF 誰(shuí)更勝一籌?
再談低溫?zé)Y(jié)銀的應(yīng)用:從春晚四家機(jī)器人出鏡的幕后推手說(shuō)起
基于NVIDIA VLA模型打造通用人形機(jī)器人能力
普渡機(jī)器人發(fā)布行業(yè)級(jí)四足機(jī)器人PUDU D5系列, 引領(lǐng)多形態(tài)具身智能發(fā)展
RK3576機(jī)器人核心:三屏異顯+八路攝像頭,重塑機(jī)器人交互與感知
國(guó)際類腦計(jì)算科學(xué)家Yulia Sandamirskaya教授加盟時(shí)識(shí)科技
INDEMIND解鎖陪伴機(jī)器人能力新邊界
普渡科技推出3D感知AI掃地機(jī)器人PUDU MT1 Max
材質(zhì)識(shí)別MEMS超聲波傳感器賦能雙足機(jī)器人自適應(yīng)行走
工業(yè)機(jī)器人的特點(diǎn)
機(jī)器人看點(diǎn):越疆機(jī)器人正式發(fā)布六足仿生機(jī)器狗 智元公布機(jī)器人運(yùn)動(dòng)控制模型專利
基于NVIDIA AI的3D機(jī)器人感知與地圖構(gòu)建系統(tǒng)設(shè)計(jì)
科學(xué)家開發(fā)可提高3D感知能力的模型,實(shí)現(xiàn)四足機(jī)器人自由行走
評(píng)論