編者按:去年,英特爾實(shí)驗(yàn)室視覺(jué)組主管Vladlen Koltun和斯坦福大學(xué)博士陳啟峰發(fā)表論文Photographic Image Synthesis with Cascaded Refinement Networks,用級(jí)聯(lián)優(yōu)化網(wǎng)絡(luò)生成照片。這種合成的圖片是神經(jīng)網(wǎng)絡(luò)“憑空”生成的,也就是說(shuō),世界上根本找不到這樣的場(chǎng)景。他們的算法可以看做一個(gè)渲染引擎,輸入一張語(yǔ)義布局,告訴算法哪里有道路、哪里有車、交通燈、行人、樹(shù)木,算法就能按照?qǐng)D中的布局輸出一張逼真的圖像,“好比機(jī)器想象出來(lái)的畫(huà)面”。
在這篇論文中,英特爾實(shí)驗(yàn)室和香港中文大學(xué)的研究人員共同創(chuàng)造了一種半?yún)?shù)的圖像合成方法,讓基于語(yǔ)義布局的圖像合成更逼真、效果更好。以下是論智對(duì)原論文的編譯。
在古羅馬作家普林尼的作品《自然史》中記述了這樣一則故事:“公元前五世紀(jì),古希臘畫(huà)家宙克西斯(Zeuxis)以日常繪畫(huà)和對(duì)光影的利用而聞名。他畫(huà)了一個(gè)小男孩舉起葡萄的作品,葡萄非常自然、逼真,竟吸引鳥(niǎo)兒前來(lái)啄食。然而宙克西斯并不滿意,因?yàn)楫?huà)上的男孩舉起葡萄的動(dòng)作還不夠逼真,沒(méi)有嚇跑鳥(niǎo)兒?!奔夹g(shù)高超的畫(huà)家想做出以假亂真的畫(huà)已經(jīng)很困難了,機(jī)器可以實(shí)現(xiàn)這個(gè)任務(wù)嗎?
用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行現(xiàn)實(shí)圖像合成為模擬現(xiàn)實(shí)圖像開(kāi)辟了新方法。在現(xiàn)代數(shù)字藝術(shù)中,能合成非常逼真的圖像的深層網(wǎng)絡(luò)成為一種新工具。通過(guò)賦予它們一種視覺(jué)想象的形式,證明了它們?cè)?a href="http://m.makelele.cn/tags/ai/" target="_blank">AI創(chuàng)造中的有用性。
最近的圖像合成發(fā)展大多得益于基于參數(shù)的模型驅(qū)動(dòng),即能代表所有圖像外觀權(quán)重所有數(shù)據(jù)的深層網(wǎng)絡(luò)。這與人類寫(xiě)實(shí)畫(huà)家的做法完全不同,他們并不是依靠記憶作畫(huà),而是用外部參考當(dāng)做材料來(lái)源,再現(xiàn)目標(biāo)物體的外觀細(xì)節(jié)。這也和之前圖像合成的方法不同,傳統(tǒng)的圖像合成方法基于非參數(shù)技術(shù),可以在測(cè)試時(shí)使用大規(guī)模數(shù)據(jù)集。從非參數(shù)方法轉(zhuǎn)變?yōu)閰?shù)方法,研究人員發(fā)現(xiàn),端到端的訓(xùn)練有著高度表達(dá)的模型。但它在測(cè)試時(shí)放棄了非參數(shù)技術(shù)優(yōu)勢(shì)。
在這篇論文中,我們提出了一種半?yún)?shù)的方法(semi-parametric approach),從語(yǔ)義布局中合成近乎真實(shí)的圖像,這種方法被稱作“半?yún)?shù)圖像合成(semi-parametric image synthesis,SIMS)”。半?yún)?shù)合成方法結(jié)合了參數(shù)和非參數(shù)技術(shù)各自的優(yōu)勢(shì),在所提出的方法中,非參數(shù)部分是指一組與照片相對(duì)的語(yǔ)義布局訓(xùn)練集中繪制的分段數(shù)據(jù)庫(kù)。這些片段用于圖像合成的原始材料,它們通過(guò)深度網(wǎng)絡(luò)應(yīng)用在畫(huà)布上,之后,畫(huà)布會(huì)輸出一張圖像。
Chen和Koltun的研究成果與我們的SIMS方法的成果對(duì)比。第一行是輸入的語(yǔ)義布局
實(shí)驗(yàn)概覽
我們的目標(biāo)是基于語(yǔ)義布局L∈{0, 1}h×w×c合成一張逼真的圖像,其中h×w是圖片尺寸,c是語(yǔ)義類別的數(shù)量。下圖是圖像合成第一階段的大致過(guò)程:
我們的模型在一對(duì)對(duì)圖片和其對(duì)應(yīng)的語(yǔ)義布局上進(jìn)行訓(xùn)練,圖片集是用于生成不同語(yǔ)義類別的圖像片段存儲(chǔ)庫(kù)M,其中的每個(gè)片段Pi都來(lái)源于訓(xùn)練圖像,并且屬于一個(gè)語(yǔ)義類別。圖中的a和b兩部分就是一些片段。
在測(cè)試時(shí),我們會(huì)得到在訓(xùn)練時(shí)從未見(jiàn)過(guò)的語(yǔ)義標(biāo)簽映射L,這個(gè)標(biāo)簽映射會(huì)分解成互相連接的組成部分{Li},對(duì)于每個(gè)連接部分,我們都會(huì)根據(jù)形狀、位置和語(yǔ)境,從M中檢索兼容的片段,即上圖b的步驟。而檢索步驟與Li被一個(gè)經(jīng)過(guò)訓(xùn)練的空間變壓器網(wǎng)絡(luò)相連接,即圖上的c和d。經(jīng)過(guò)轉(zhuǎn)換的片段在畫(huà)布上進(jìn)行合成,C∈Rw×h×3,即上圖中的f。由于片段無(wú)法與{Li}完美重合,也許會(huì)出現(xiàn)重疊的情況。最后e部分用來(lái)進(jìn)行前后排序。
之后,畫(huà)布C和輸入的語(yǔ)義布局L一同被輸入合成網(wǎng)絡(luò)f中,網(wǎng)絡(luò)生成最終的圖像被輸出,過(guò)程如下圖所示:
這一過(guò)程補(bǔ)全了缺失的區(qū)域、調(diào)整檢索到的片段、混合邊界、合成陰影,并且基于畫(huà)布和目標(biāo)布局調(diào)整圖像外觀。具體架構(gòu)和訓(xùn)練過(guò)程可查看原論文。
為了將我們的方法應(yīng)用到較為粗略的語(yǔ)義布局中,我們訓(xùn)練了一個(gè)級(jí)聯(lián)的精煉網(wǎng)絡(luò),用于將粗糙的布局輸入轉(zhuǎn)化成密集的像素級(jí)輸出。
實(shí)驗(yàn)過(guò)程
數(shù)據(jù)集
本次實(shí)驗(yàn)在三個(gè)數(shù)據(jù)集上進(jìn)行:Cityscapes、NYU和ADE20K。Cityscapes數(shù)據(jù)集包含的是城市道路景觀照,其中有3000張帶有精細(xì)標(biāo)記的圖像,20000張粗略標(biāo)記的、用于訓(xùn)練的圖像。我們讓模型在這兩種圖像上分別訓(xùn)練,最終在含有500張圖像的驗(yàn)證數(shù)據(jù)集上進(jìn)行測(cè)試。
對(duì)于NYU數(shù)據(jù)集,我們?cè)谇?200張圖像上進(jìn)行訓(xùn)練,剩下的249張圖像用于測(cè)試。而ADE20K數(shù)據(jù)集是室外圖片,我們中其中1萬(wàn)張圖像進(jìn)行訓(xùn)練,1000張圖像進(jìn)行測(cè)試。
感知測(cè)試
我們將提出的方法和pix2pix以及CRN進(jìn)行了對(duì)比,下圖是結(jié)果,表中的每一項(xiàng)都顯示,我們的方法(SIMS)都比由pix2pix和CRN合成的圖像更真實(shí):

語(yǔ)義分割準(zhǔn)確度
接下來(lái),我們分析了合成圖像的真實(shí)性。給定一個(gè)語(yǔ)義布局L,我們用一種可評(píng)估的方法合成一張圖像I,該圖像之后會(huì)被輸入到一個(gè)預(yù)訓(xùn)練過(guò)的語(yǔ)義分割網(wǎng)絡(luò)(這里我們用PSPNet)。這個(gè)網(wǎng)絡(luò)會(huì)生成一個(gè)語(yǔ)義布局L?,然后我們將L?和L相比較。理論上來(lái)說(shuō),二者越接近,圖像的真實(shí)程度就越高。比較L和L?有兩種方法:intersection over union(IoU)和總體像素精度。
最終的結(jié)果如下:

我們的SIMS方法比pix2pix和CRN生成的圖像更合理、更真實(shí)。
圖像數(shù)據(jù)
接著,我們從低級(jí)圖像數(shù)據(jù)方面分析圖像的真實(shí)性。我們比較了合成圖像的平均經(jīng)典譜(power spectrum)以及對(duì)應(yīng)的數(shù)據(jù)集中的真實(shí)圖像。下圖顯示了三種方法合成圖像的平均經(jīng)典譜:

可以看出,我們的方法生成的平均經(jīng)典譜與真實(shí)圖像的平均經(jīng)典譜非常接近,而其他兩種方法則與真實(shí)圖像有差別。
質(zhì)量結(jié)果
從以下兩張圖中可以看出這三種方法的差別。
結(jié)語(yǔ)
我們所提出的半?yún)?shù)圖像合成方法(SIMS)可以從語(yǔ)義布局中生成圖像,實(shí)驗(yàn)證明這種方法比完全參數(shù)化的技術(shù)生成的圖像更真實(shí)。但是在這之后仍有一些尚未解決的問(wèn)題。首先,我們的方法在部署時(shí)比完全基于參數(shù)的方法慢很多。另外還要開(kāi)發(fā)更高效的數(shù)據(jù)機(jī)構(gòu)和算法。其次,其他形式的輸入也應(yīng)該可用,例如語(yǔ)義實(shí)例分割或者文本描述。第三,我們所提出的方法并不是端到端訓(xùn)練的。最后,我們希望這項(xiàng)半?yún)?shù)技術(shù)能應(yīng)用到視頻合成上。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4839瀏覽量
107932 -
圖像
+關(guān)注
關(guān)注
2文章
1096瀏覽量
42355 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1238瀏覽量
26222
原文標(biāo)題:英特爾實(shí)驗(yàn)室推出半?yún)?shù)圖像合成方法,AI造圖“以假亂真”
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
3D效果逼真的元件封裝庫(kù)網(wǎng)盤下載
目標(biāo)檢測(cè)和圖像語(yǔ)義分割領(lǐng)域性能評(píng)價(jià)指標(biāo)
基于語(yǔ)義報(bào)文的干擾效果評(píng)估系統(tǒng)設(shè)計(jì)
如何使用知識(shí)圖譜對(duì)圖像語(yǔ)義進(jìn)行分析技術(shù)及應(yīng)用研究
DeepFocus,基于AI實(shí)現(xiàn)更逼真的VR圖像
AI工具將低像素的面孔變成逼真的圖像
人體圖像合成制作可信和逼真的人類圖像
分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的圖像語(yǔ)義分割方法
基于SEGNET模型的圖像語(yǔ)義分割方法
語(yǔ)義分割標(biāo)注:從認(rèn)知到實(shí)踐
深度學(xué)習(xí)圖像語(yǔ)義分割指標(biāo)介紹
深入理解渲染引擎:打造逼真圖像的關(guān)鍵
基于語(yǔ)義布局的圖像合成更逼真、效果更好
評(píng)論