編者按:今天,DeepMind的研究人員在Science上發(fā)表論文,推出了一種新的神經(jīng)網(wǎng)絡(luò)——GQN,只用幾張二維照片,就能重建全部的三維場(chǎng)景,可以說(shuō)是計(jì)算機(jī)視覺(jué)領(lǐng)域的又一關(guān)鍵突破。
讓機(jī)器對(duì)空間環(huán)境進(jìn)行感知似乎一直是DeepMind研究的重點(diǎn),一個(gè)多月前我們?cè)鴪?bào)道過(guò)他們的另一項(xiàng)研究:DeepMind用AI解密大腦:當(dāng)你找路時(shí),大腦發(fā)生了什么??臻g感知對(duì)人類來(lái)說(shuō)很簡(jiǎn)單,例如當(dāng)我們第一次走進(jìn)一個(gè)房間,掃一眼就能知道屋里有哪些物品、它們都在哪個(gè)位置上。只看到桌子的三條腿,你也能推斷出第四條腿的大致位置和形狀。另外,即使你沒(méi)有熟悉屋里的每個(gè)角落,也能大概描繪出它的平面圖,或者能想象出從另一個(gè)角度看房間應(yīng)該是什么樣子的。
但是想讓人工智能系統(tǒng)做到上述行為的確很困難。現(xiàn)在最先進(jìn)的計(jì)算機(jī)視覺(jué)系統(tǒng)仍需要在大型經(jīng)過(guò)標(biāo)注的數(shù)據(jù)集上進(jìn)行訓(xùn)練,而數(shù)據(jù)標(biāo)注又是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作,所以每次模型只能捕捉一小部分場(chǎng)景。隨著網(wǎng)絡(luò)越來(lái)越復(fù)雜,想詳細(xì)了解的周圍環(huán)境也越復(fù)雜:最近的座位在哪?沙發(fā)是什么材質(zhì)的?所有影子的光源在哪?照明開(kāi)關(guān)可能在哪?
在這次的研究中,DeepMind研究人員介紹了一種能感知周圍環(huán)境的框架——GQN(Generative Query Network)。和嬰兒或動(dòng)物一樣,GQN通過(guò)觀察周圍環(huán)境收集數(shù)據(jù),從而學(xué)習(xí),無(wú)需人類對(duì)場(chǎng)景進(jìn)行標(biāo)記,就能掌握大致空間結(jié)構(gòu)。
GQN模型由兩部分組成:一個(gè)表示網(wǎng)絡(luò)和一個(gè)生成網(wǎng)絡(luò)。表示網(wǎng)絡(luò)將智能體所觀察到的畫(huà)面作為輸入,生成一個(gè)表示(向量),描述了基本場(chǎng)景。之后,生成網(wǎng)絡(luò)從此前沒(méi)有觀察到的角度對(duì)場(chǎng)景進(jìn)行預(yù)測(cè)(或者說(shuō)是“想象”)。
但是表示網(wǎng)絡(luò)并不知道生成網(wǎng)絡(luò)要從哪個(gè)視角預(yù)測(cè)場(chǎng)景,所以它必須找到一種高效、精確的描繪場(chǎng)景平面的方法。它通過(guò)捕捉最重要的元素,例如物體的位置、顏色和房間平面,進(jìn)行簡(jiǎn)單表示。訓(xùn)練期間,生成器學(xué)習(xí)辨認(rèn)物體、特征、關(guān)系和環(huán)境的規(guī)律。這一套“共享”的概念讓表示網(wǎng)絡(luò)能用一種高度簡(jiǎn)練、抽象的方式描繪場(chǎng)景,剩余的細(xì)節(jié)部分就由生成網(wǎng)絡(luò)補(bǔ)充。例如,表示網(wǎng)絡(luò)用一小串?dāng)?shù)字表示一個(gè)“藍(lán)色方塊”,生成網(wǎng)絡(luò)就知道從某個(gè)角度應(yīng)該如何用像素展現(xiàn)出來(lái)。
DeepMind研究人員在程序生成的虛擬3D環(huán)境中對(duì)GQN做了多次試驗(yàn),包括多種不同物體,被擺放在不同的位置,并且形狀、顏色、材質(zhì)都不相同,同時(shí)還改變了光線方向和遮擋程度。通過(guò)在這些環(huán)境上進(jìn)行訓(xùn)練,他們用GQN的表示網(wǎng)絡(luò)去生成一個(gè)從未見(jiàn)過(guò)的場(chǎng)景。在實(shí)驗(yàn)中人們發(fā)現(xiàn)GQN展現(xiàn)出了幾個(gè)重要特征:
GQN的生成網(wǎng)絡(luò)可以在全新視角“想象”出此前沒(méi)有見(jiàn)過(guò)的景象,精確度非常高。給定一個(gè)場(chǎng)景表示和新的相機(jī)角度,網(wǎng)絡(luò)不需要任何先前信息就能生成精確的圖像。所以生成網(wǎng)絡(luò)也可以近似看成是從數(shù)據(jù)中學(xué)習(xí)的渲染器:

GQN的表示網(wǎng)絡(luò)可以獨(dú)自學(xué)習(xí)算數(shù)、定位、分類物體。就算在小型表示上,GQN也能在具體視角上做出非常精準(zhǔn)的預(yù)測(cè),和現(xiàn)實(shí)幾乎一模一樣。這說(shuō)明了表示網(wǎng)絡(luò)觀察得非常仔細(xì),例如下面這個(gè)由幾個(gè)方塊堆疊起來(lái)的場(chǎng)景:

GQN可以表示、測(cè)量并且減少不確定性。即使在沒(méi)有完全看到所有場(chǎng)景的情況下,網(wǎng)絡(luò)也可以解釋其中的不確定之處。同時(shí)也能根據(jù)部分圖像拼成完整的場(chǎng)景。下面的第一人稱視角和自上而下的預(yù)測(cè)方法就是其中的“秘訣”。模型通過(guò)它預(yù)測(cè)的變化性表達(dá)不確定性,其中預(yù)測(cè)的變化性隨著不斷在迷宮中移動(dòng)減少(灰色三角是觀察位置)。

GQN表示支持穩(wěn)定、數(shù)據(jù)高效的強(qiáng)化學(xué)習(xí)。給定GQN表示后,目前頂尖的深度強(qiáng)化學(xué)習(xí)智能體就開(kāi)始學(xué)習(xí)以數(shù)據(jù)有效的方式完成任務(wù)。對(duì)這些智能體來(lái)說(shuō),生成網(wǎng)絡(luò)中編入的信息可以看作是對(duì)環(huán)境固有的認(rèn)知:

利用GQN我們觀察到了更多數(shù)據(jù)有效的學(xué)習(xí),比通常只利用原始像素的方法快了近4倍達(dá)到收斂水平
相較于前人研究,GQN是一種全新的學(xué)習(xí)現(xiàn)實(shí)場(chǎng)景的簡(jiǎn)單方法。重要的是,這種方法不需要對(duì)具體場(chǎng)景建模,或者花大量時(shí)間對(duì)內(nèi)容標(biāo)注,一個(gè)模型就能應(yīng)用多個(gè)場(chǎng)景。它還學(xué)習(xí)了一種強(qiáng)大的神經(jīng)渲染器,能夠在任意角度生成精確的場(chǎng)景圖像。
不過(guò),與一些傳統(tǒng)計(jì)算機(jī)視覺(jué)技術(shù)相比,這次所提出的方法仍然有很多限制,并且目前也都是在虛擬的合成場(chǎng)景上訓(xùn)練的。不過(guò),隨著更多可用數(shù)據(jù)的出現(xiàn)以及硬件的提升,研究人員希望進(jìn)一步套索GQN的可能性,比如將它應(yīng)用到現(xiàn)實(shí)場(chǎng)景中,同時(shí)提高成像分辨率。未來(lái),研究GQN對(duì)更廣泛的場(chǎng)景理解非常重要,例如加入時(shí)間的維度,讓它學(xué)習(xí)對(duì)場(chǎng)景和移動(dòng)的理解,同時(shí)應(yīng)用到VR和AR技術(shù)中。盡管前路漫漫,這項(xiàng)工作對(duì)全自動(dòng)場(chǎng)景辨別來(lái)說(shuō)是重要一步。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4838瀏覽量
107756 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
9文章
1715瀏覽量
47625 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1236瀏覽量
26190
原文標(biāo)題:DeepMind重磅論文:不用人類標(biāo)記,幾張圖片就能渲染出3D場(chǎng)景
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
DeepMind論文推出了一種新的神經(jīng)網(wǎng)絡(luò)——GQN
評(píng)論