我們可以通過(guò)視覺(jué)、聽(tīng)覺(jué)和觸覺(jué)來(lái)感知物體,而且這幾種感知是可以同時(shí)進(jìn)行且互相感受的。但是機(jī)器人卻很難做到這一點(diǎn),它也許能“看”,也可以“觸摸”,但是這些感知信息卻無(wú)法交換。
最近,來(lái)自MIT CSAIL的博士、曾經(jīng)的北大學(xué)神李昀燭(一作)聯(lián)合朱俊彥(二作)等人提出一種預(yù)測(cè)性的人工智能,使機(jī)器人能夠通過(guò)觸摸來(lái)“看”物體,并且反過(guò)來(lái)通過(guò)視覺(jué)圖像來(lái)預(yù)測(cè)觸摸的感受。
加拿大作家瑪格麗特?阿特伍德曾在小說(shuō)《盲刺客》中寫(xiě)道:「觸覺(jué)先于視覺(jué),先于語(yǔ)言。它是第一語(yǔ)言,也是最后的語(yǔ)言,它不會(huì)騙人?!?/p>
的確,有時(shí)候眼見(jiàn)未必為真,耳聽(tīng)也未必為實(shí)。但你用手去觸摸的感知總不會(huì)騙人。
不過(guò),雖然觸覺(jué)讓我們可以直接感受物理世界,但眼睛卻可以幫助我們立即理解這些觸覺(jué)信號(hào)的全貌,讓我們快速獲得關(guān)于物體的認(rèn)知。
但對(duì)我們來(lái)說(shuō)很簡(jiǎn)單的一件事,對(duì)機(jī)器人來(lái)說(shuō)卻并不容易。帶有攝像頭的機(jī)器人可以直接看世界,帶有觸覺(jué)系統(tǒng)的機(jī)器人可以直接感知。但具有觸覺(jué)或視覺(jué)的機(jī)器人無(wú)法互換這些信號(hào)。
為了縮小這種感官差距,麻省理工計(jì)算機(jī)視覺(jué)和人工智能實(shí)驗(yàn)室的研究人員提出了一種預(yù)測(cè)性的人工智能,可以通過(guò)觸覺(jué)來(lái)「看」世界,再通過(guò)「看」來(lái)感受。
下面,我們來(lái)看一下具體研究(先上動(dòng)圖感受下):
綠色:真實(shí)結(jié)果;紅色:預(yù)測(cè)結(jié)果
這篇論文到底做了什么?
人類(lèi)感知世界的方式有很多種,包括視覺(jué)、聽(tīng)覺(jué)和觸覺(jué)。在這項(xiàng)研究中,研究人員探索了視覺(jué)和觸覺(jué)之間的跨模態(tài)聯(lián)系。
這項(xiàng)跨域建模任務(wù)的主要挑戰(zhàn)在于兩者之間顯著的比例差異:當(dāng)我們的眼睛同時(shí)感知整個(gè)視覺(jué)場(chǎng)景時(shí),只能感受到物體的一小部分。
為了將視覺(jué)和觸覺(jué)聯(lián)系起來(lái),研究人員引入了兩個(gè)跨模態(tài)任務(wù):1)從視覺(jué)輸入中合成可信的觸覺(jué)信號(hào),2)從視覺(jué)輸入中直接預(yù)測(cè)哪個(gè)物體和哪個(gè)部分正在被觸摸。
為了完成此目標(biāo),研究人員構(gòu)建了一個(gè)機(jī)器人系統(tǒng)來(lái)自動(dòng)化收集大規(guī)模視覺(jué)-觸覺(jué)對(duì)的過(guò)程。如圖 1a 所示,機(jī)器人手臂裝有一個(gè)觸覺(jué)傳感器,稱(chēng)為 GelSight。

他們還設(shè)置了獨(dú)立的網(wǎng)絡(luò)攝像機(jī)來(lái)記錄物體和機(jī)械臂的視覺(jué)信息。研究人員總共記錄了對(duì) 195 個(gè)不同物體的 12000 次觸摸。每個(gè)觸摸動(dòng)作包含 250 幀的視頻序列,最后產(chǎn)生了 300 萬(wàn)個(gè)視覺(jué)和觸覺(jué)對(duì)圖像。
為了縮小圖像數(shù)據(jù)和觸摸數(shù)據(jù)之間的數(shù)據(jù)量比例差距,他們提出了新的條件對(duì)抗模型,該模型結(jié)合了觸覺(jué)的比例和位置信息。人類(lèi)的感知研究表明,該模型可以根據(jù)觸覺(jué)數(shù)據(jù)生成逼真的視覺(jué)圖像,反之亦然,即它也可以根據(jù)視覺(jué)數(shù)據(jù)生成觸覺(jué)感知。
最后,研究人員給出了關(guān)于不同系統(tǒng)設(shè)計(jì)的定性和定量實(shí)驗(yàn)結(jié)果,并可視化了模型學(xué)習(xí)到的表征,以幫助我們理解它捕捉到的東西。
這項(xiàng)研究可以幫助機(jī)器人更好的理解物體的性質(zhì),而相關(guān)的拓展甚至可以協(xié)助盲人更好的通過(guò)觸摸感知環(huán)境。
機(jī)器人如何通過(guò)觸覺(jué)來(lái)「看」世界,或者通過(guò)視覺(jué)圖像來(lái)「想象」觸覺(jué)
在模型層面,研究人員構(gòu)建了一個(gè)跨模型的預(yù)測(cè)系統(tǒng),以根據(jù)觸覺(jué)預(yù)測(cè)視覺(jué),反之亦然。他們首先將觸覺(jué)中的程度、規(guī)模、范圍和位置信息結(jié)合在模型中。然后,使用數(shù)據(jù)平衡的方法多樣化其結(jié)果。最后,通過(guò)考慮時(shí)間信息的方法進(jìn)一步提高準(zhǔn)確性。
研究中的模型基于 pix2pix 方法,是一個(gè)用于圖像到圖像任務(wù)的條件 GAN 框架。
在任務(wù)中,生成器接受視覺(jué)圖像或觸覺(jué)圖像作為輸入,并生成一個(gè)對(duì)應(yīng)的觸覺(jué)或視覺(jué)圖像。而判別器觀察輸入的圖像和輸出的圖像。
在訓(xùn)練中,判別器分辨輸出和真實(shí)圖像的區(qū)別,同時(shí)生成器生成真實(shí)的,可以迷惑判別器的圖像。
在實(shí)驗(yàn)中,研究人員使用視覺(jué)-觸覺(jué)圖像對(duì)來(lái)訓(xùn)練模型。在從觸覺(jué)還原視覺(jué)的任務(wù)中,輸入觸覺(jué)圖像,而輸出是對(duì)應(yīng)的視覺(jué)圖像。而在視覺(jué)預(yù)測(cè)觸覺(jué)的任務(wù)中,則輸入和輸出對(duì)調(diào)。
模型

圖 3:視覺(jué)-觸覺(jué)的模型結(jié)構(gòu)。生成器包括編碼器和解碼器兩個(gè)部分。輸入使用了視覺(jué)圖像和參考視覺(jué)-觸覺(jué)圖像一起編碼,并產(chǎn)生觸覺(jué)圖像作為輸出。對(duì)觸覺(jué)-視覺(jué)的任務(wù)上,使用同樣的結(jié)構(gòu),但是交換視覺(jué)圖像和觸覺(jué)圖像的輸入輸出位置。
模型使用編碼器-解碼器架構(gòu)用于生成任務(wù)。在編碼器上分別使用兩個(gè) ResNet-18 模型用于輸入圖像(視覺(jué)或觸覺(jué)圖像)和參考的視覺(jué)-觸覺(jué)圖像。
將來(lái)自編碼器的兩個(gè)向量合并后,研究人員將其輸入解碼器。解碼器包括五層標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò),因?yàn)檩敵龊鸵恍﹨⒖紙D像相似,研究人員在編碼器和解碼器之間其中加入了一些跨層連接。對(duì)于判別器,研究人員使用了 ConvNet。
為防止模式崩塌,研究人員采取數(shù)據(jù)重均衡策略來(lái)幫助生成器生成不同的模式。評(píng)估包括關(guān)于結(jié)果真實(shí)感的人類(lèi)感知研究以及觸摸位置的準(zhǔn)確性和 GelSight 圖像中變形量等客觀度量。
機(jī)器人設(shè)置
研究人員使用 KUKA LBR iiwa 工業(yè)機(jī)械臂來(lái)實(shí)現(xiàn)數(shù)據(jù)收集過(guò)程的自動(dòng)化。機(jī)械臂上安裝的 GelSight 傳感器用以收集原始觸覺(jué)圖像。
他們還在機(jī)械臂背面的三腳架上安裝了一個(gè)網(wǎng)絡(luò)攝像頭,以捕捉機(jī)械臂觸摸物體的場(chǎng)景視頻。此外,研究人員還利用時(shí)間戳記錄來(lái)同步視覺(jué)和觸覺(jué)圖像。
數(shù)據(jù)集和方法
圖 2: 參與實(shí)驗(yàn)的物品集合。使用了很多日用品和食品。

表 1: 數(shù)據(jù)集的劃分。
研究的數(shù)據(jù)集是 YCB(Yale-CMU-Berkeley)數(shù)據(jù)集,一個(gè)標(biāo)準(zhǔn)的日用品數(shù)據(jù)集,被廣泛用于機(jī)器人操作研究。研究人員在研究中使用了 195 個(gè)物品,其中 165 個(gè)作為訓(xùn)練集,并使用 30 個(gè)已訓(xùn)練的和 30 個(gè)模型未見(jiàn)過(guò)的物品進(jìn)行測(cè)試。
訓(xùn)練
模型使用 Adam 學(xué)習(xí)器,學(xué)習(xí)率 0.0002。L1 loss 的λ為 10。使用 LSGAN 而非標(biāo)準(zhǔn) GAN 的損失函數(shù)。同時(shí)對(duì)圖像采用了一些數(shù)據(jù)增強(qiáng)機(jī)制,如隨機(jī)剪裁,或圖像亮度、對(duì)比度、飽和度和色調(diào)微調(diào)。
實(shí)驗(yàn)創(chuàng)新
為了提高模型的表現(xiàn),研究人員在實(shí)驗(yàn)上采取了一些創(chuàng)新措施:
使用參考觸覺(jué)-視覺(jué)圖像,幫助機(jī)器人定位觸摸位置,減少?gòu)囊曈X(jué)到觸覺(jué)任務(wù)中需要判斷觸摸位置的困難。
平衡大量的沒(méi)有材質(zhì)和起伏的平面觸覺(jué)數(shù)據(jù),避免模型崩潰而使機(jī)器人在空氣中做無(wú)謂的物體觸摸動(dòng)作。
考慮時(shí)間信息(何時(shí)觸摸了物體表面),避免輸入和輸出序列不同步。
實(shí)驗(yàn)結(jié)果

圖 5:模型和其他基線結(jié)果的可視化對(duì)比。模型可以更好地根據(jù)視覺(jué)圖像預(yù)測(cè)物體表面的觸覺(jué)信息,也能夠更好地根據(jù)觸覺(jué)信息還原圖像表面。

表 2:真假測(cè)試中的模型表現(xiàn)。模型可以更好地分辨真實(shí)和虛假的觸覺(jué)信號(hào),不管是對(duì)已知的物體還是未知的物體。

圖 6:從視覺(jué)到觸覺(jué)的量化評(píng)測(cè)結(jié)果。上圖:測(cè)試機(jī)器人是否已經(jīng)認(rèn)知到觸摸了物體表面的錯(cuò)誤數(shù)。下圖:根據(jù)圖像還原觸覺(jué)點(diǎn)位置的失真錯(cuò)誤情況。實(shí)驗(yàn)?zāi)P捅憩F(xiàn)基本上比其它模型好。

圖 7:從視覺(jué)還原觸覺(jué)的情況。上圖:模型是否能夠及時(shí)檢測(cè)到已經(jīng)觸摸了物體表面的曲線。下圖:根據(jù)圖像還原的觸覺(jué)點(diǎn)陣信息。
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
31134瀏覽量
222519 -
人工智能
+關(guān)注
關(guān)注
1818文章
50131瀏覽量
265723
原文標(biāo)題:看一眼就知手感,北大學(xué)神聯(lián)手朱俊彥讓機(jī)器人「想象」觸感
文章出處:【微信號(hào):cas-ciomp,微信公眾號(hào):中科院長(zhǎng)春光機(jī)所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
大曉機(jī)器人發(fā)布開(kāi)悟3.0,國(guó)產(chǎn)世界模型讓機(jī)器人擁有“超級(jí)大腦”
天太機(jī)器人與廣州大學(xué)共建“機(jī)器人研發(fā)實(shí)驗(yàn)室”,產(chǎn)學(xué)研協(xié)同開(kāi)新篇章
東北大學(xué)開(kāi)源鴻蒙技術(shù)俱樂(lè)部正式揭牌成立
RK3576機(jī)器人核心:三屏異顯+八路攝像頭,重塑機(jī)器人交互與感知
小蘿卜機(jī)器人的故事
機(jī)器人競(jìng)技幕后:磁傳感器芯片激活 “精準(zhǔn)感知力”
工業(yè)機(jī)器人的特點(diǎn)
南京工業(yè)大學(xué):仿生觸覺(jué)傳感系統(tǒng)讓機(jī)器人擁有“人類(lèi)指尖”般的細(xì)膩感知
工業(yè)通信界的“月老”:CC\\-Link IE和DeviceNet如何牽起機(jī)器人的“紅線”
明遠(yuǎn)智睿SSD2351開(kāi)發(fā)板:語(yǔ)音機(jī)器人領(lǐng)域的變革力量
盤(pán)點(diǎn)#機(jī)器人開(kāi)發(fā)平臺(tái)
【「# ROS 2智能機(jī)器人開(kāi)發(fā)實(shí)踐」閱讀體驗(yàn)】視覺(jué)實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用
【「# ROS 2智能機(jī)器人開(kāi)發(fā)實(shí)踐」閱讀體驗(yàn)】機(jī)器人入門(mén)的引路書(shū)
【「# ROS 2智能機(jī)器人開(kāi)發(fā)實(shí)踐」閱讀體驗(yàn)】+內(nèi)容初識(shí)
面向大學(xué)的樹(shù)莓派 RemoteLab 機(jī)器人開(kāi)發(fā)!
北大學(xué)神聯(lián)手朱俊彥讓機(jī)器人「想象」觸感
評(píng)論