久久免费视频在线观看,亚洲精品视频色图区

編者按：去年，英特爾實(shí)驗(yàn)室視覺(jué)組主管Vladlen Koltun和斯坦福大學(xué)博士陳啟峰發(fā)表論文Photographic Image Synthesis with Cascaded Refinement Networks，用級(jí)聯(lián)優(yōu)化網(wǎng)絡(luò)生成照片。這種合成的圖片是神經(jīng)網(wǎng)絡(luò)“憑空”生成的，也就是說(shuō)，世界上根本找不到這樣的場(chǎng)景。他們的算法可以看做一個(gè)渲染引擎，輸入一張語(yǔ)義布局，告訴算法哪里有道路、哪里有車、交通燈、行人、樹(shù)木，算法就能按照?qǐng)D中的布局輸出一張逼真的圖像，“好比機(jī)器想象出來(lái)的畫(huà)面”。

在這篇論文中，英特爾實(shí)驗(yàn)室和香港中文大學(xué)的研究人員共同創(chuàng)造了一種半?yún)?shù)的圖像合成方法，讓基于語(yǔ)義布局的圖像合成更逼真、效果更好。以下是論智對(duì)原論文的編譯。

在古羅馬作家普林尼的作品《自然史》中記述了這樣一則故事：“公元前五世紀(jì)，古希臘畫(huà)家宙克西斯（Zeuxis）以日常繪畫(huà)和對(duì)光影的利用而聞名。他畫(huà)了一個(gè)小男孩舉起葡萄的作品，葡萄非常自然、逼真，竟吸引鳥(niǎo)兒前來(lái)啄食。然而宙克西斯并不滿意，因?yàn)楫?huà)上的男孩舉起葡萄的動(dòng)作還不夠逼真，沒(méi)有嚇跑鳥(niǎo)兒?！奔夹g(shù)高超的畫(huà)家想做出以假亂真的畫(huà)已經(jīng)很困難了，機(jī)器可以實(shí)現(xiàn)這個(gè)任務(wù)嗎？

用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行現(xiàn)實(shí)圖像合成為模擬現(xiàn)實(shí)圖像開(kāi)辟了新方法。在現(xiàn)代數(shù)字藝術(shù)中，能合成非常逼真的圖像的深層網(wǎng)絡(luò)成為一種新工具。通過(guò)賦予它們一種視覺(jué)想象的形式，證明了它們?cè)?a href="http://m.makelele.cn/tags/ai/" target="_blank">AI創(chuàng)造中的有用性。

最近的圖像合成發(fā)展大多得益于基于參數(shù)的模型驅(qū)動(dòng)，即能代表所有圖像外觀權(quán)重所有數(shù)據(jù)的深層網(wǎng)絡(luò)。這與人類寫(xiě)實(shí)畫(huà)家的做法完全不同，他們并不是依靠記憶作畫(huà)，而是用外部參考當(dāng)做材料來(lái)源，再現(xiàn)目標(biāo)物體的外觀細(xì)節(jié)。這也和之前圖像合成的方法不同，傳統(tǒng)的圖像合成方法基于非參數(shù)技術(shù)，可以在測(cè)試時(shí)使用大規(guī)模數(shù)據(jù)集。從非參數(shù)方法轉(zhuǎn)變?yōu)閰?shù)方法，研究人員發(fā)現(xiàn)，端到端的訓(xùn)練有著高度表達(dá)的模型。但它在測(cè)試時(shí)放棄了非參數(shù)技術(shù)優(yōu)勢(shì)。

在這篇論文中，我們提出了一種半?yún)?shù)的方法（semi-parametric approach），從語(yǔ)義布局中合成近乎真實(shí)的圖像，這種方法被稱作“半?yún)?shù)圖像合成（semi-parametric image synthesis，SIMS）”。半?yún)?shù)合成方法結(jié)合了參數(shù)和非參數(shù)技術(shù)各自的優(yōu)勢(shì)，在所提出的方法中，非參數(shù)部分是指一組與照片相對(duì)的語(yǔ)義布局訓(xùn)練集中繪制的分段數(shù)據(jù)庫(kù)。這些片段用于圖像合成的原始材料，它們通過(guò)深度網(wǎng)絡(luò)應(yīng)用在畫(huà)布上，之后，畫(huà)布會(huì)輸出一張圖像。

Chen和Koltun的研究成果與我們的SIMS方法的成果對(duì)比。第一行是輸入的語(yǔ)義布局

實(shí)驗(yàn)概覽

我們的目標(biāo)是基于語(yǔ)義布局L∈{0, 1}h×w×c合成一張逼真的圖像，其中h×w是圖片尺寸，c是語(yǔ)義類別的數(shù)量。下圖是圖像合成第一階段的大致過(guò)程：

我們的模型在一對(duì)對(duì)圖片和其對(duì)應(yīng)的語(yǔ)義布局上進(jìn)行訓(xùn)練，圖片集是用于生成不同語(yǔ)義類別的圖像片段存儲(chǔ)庫(kù)M，其中的每個(gè)片段Pi都來(lái)源于訓(xùn)練圖像，并且屬于一個(gè)語(yǔ)義類別。圖中的a和b兩部分就是一些片段。

在測(cè)試時(shí)，我們會(huì)得到在訓(xùn)練時(shí)從未見(jiàn)過(guò)的語(yǔ)義標(biāo)簽映射L，這個(gè)標(biāo)簽映射會(huì)分解成互相連接的組成部分{Li}，對(duì)于每個(gè)連接部分，我們都會(huì)根據(jù)形狀、位置和語(yǔ)境，從M中檢索兼容的片段，即上圖b的步驟。而檢索步驟與Li被一個(gè)經(jīng)過(guò)訓(xùn)練的空間變壓器網(wǎng)絡(luò)相連接，即圖上的c和d。經(jīng)過(guò)轉(zhuǎn)換的片段在畫(huà)布上進(jìn)行合成，C∈Rw×h×3，即上圖中的f。由于片段無(wú)法與{Li}完美重合，也許會(huì)出現(xiàn)重疊的情況。最后e部分用來(lái)進(jìn)行前后排序。

之后，畫(huà)布C和輸入的語(yǔ)義布局L一同被輸入合成網(wǎng)絡(luò)f中，網(wǎng)絡(luò)生成最終的圖像被輸出，過(guò)程如下圖所示：

這一過(guò)程補(bǔ)全了缺失的區(qū)域、調(diào)整檢索到的片段、混合邊界、合成陰影，并且基于畫(huà)布和目標(biāo)布局調(diào)整圖像外觀。具體架構(gòu)和訓(xùn)練過(guò)程可查看原論文。

為了將我們的方法應(yīng)用到較為粗略的語(yǔ)義布局中，我們訓(xùn)練了一個(gè)級(jí)聯(lián)的精煉網(wǎng)絡(luò)，用于將粗糙的布局輸入轉(zhuǎn)化成密集的像素級(jí)輸出。

實(shí)驗(yàn)過(guò)程

數(shù)據(jù)集

本次實(shí)驗(yàn)在三個(gè)數(shù)據(jù)集上進(jìn)行：Cityscapes、NYU和ADE20K。Cityscapes數(shù)據(jù)集包含的是城市道路景觀照，其中有3000張帶有精細(xì)標(biāo)記的圖像，20000張粗略標(biāo)記的、用于訓(xùn)練的圖像。我們讓模型在這兩種圖像上分別訓(xùn)練，最終在含有500張圖像的驗(yàn)證數(shù)據(jù)集上進(jìn)行測(cè)試。

對(duì)于NYU數(shù)據(jù)集，我們?cè)谇?200張圖像上進(jìn)行訓(xùn)練，剩下的249張圖像用于測(cè)試。而ADE20K數(shù)據(jù)集是室外圖片，我們中其中1萬(wàn)張圖像進(jìn)行訓(xùn)練，1000張圖像進(jìn)行測(cè)試。

感知測(cè)試

我們將提出的方法和pix2pix以及CRN進(jìn)行了對(duì)比，下圖是結(jié)果，表中的每一項(xiàng)都顯示，我們的方法（SIMS）都比由pix2pix和CRN合成的圖像更真實(shí)：

語(yǔ)義分割準(zhǔn)確度

接下來(lái)，我們分析了合成圖像的真實(shí)性。給定一個(gè)語(yǔ)義布局L，我們用一種可評(píng)估的方法合成一張圖像I，該圖像之后會(huì)被輸入到一個(gè)預(yù)訓(xùn)練過(guò)的語(yǔ)義分割網(wǎng)絡(luò)（這里我們用PSPNet）。這個(gè)網(wǎng)絡(luò)會(huì)生成一個(gè)語(yǔ)義布局L?，然后我們將L?和L相比較。理論上來(lái)說(shuō)，二者越接近，圖像的真實(shí)程度就越高。比較L和L?有兩種方法：intersection over union（IoU）和總體像素精度。

最終的結(jié)果如下：

我們的SIMS方法比pix2pix和CRN生成的圖像更合理、更真實(shí)。

圖像數(shù)據(jù)

接著，我們從低級(jí)圖像數(shù)據(jù)方面分析圖像的真實(shí)性。我們比較了合成圖像的平均經(jīng)典譜（power spectrum）以及對(duì)應(yīng)的數(shù)據(jù)集中的真實(shí)圖像。下圖顯示了三種方法合成圖像的平均經(jīng)典譜：

可以看出，我們的方法生成的平均經(jīng)典譜與真實(shí)圖像的平均經(jīng)典譜非常接近，而其他兩種方法則與真實(shí)圖像有差別。

質(zhì)量結(jié)果

從以下兩張圖中可以看出這三種方法的差別。

結(jié)語(yǔ)

我們所提出的半?yún)?shù)圖像合成方法（SIMS）可以從語(yǔ)義布局中生成圖像，實(shí)驗(yàn)證明這種方法比完全參數(shù)化的技術(shù)生成的圖像更真實(shí)。但是在這之后仍有一些尚未解決的問(wèn)題。首先，我們的方法在部署時(shí)比完全基于參數(shù)的方法慢很多。另外還要開(kāi)發(fā)更高效的數(shù)據(jù)機(jī)構(gòu)和算法。其次，其他形式的輸入也應(yīng)該可用，例如語(yǔ)義實(shí)例分割或者文本描述。第三，我們所提出的方法并不是端到端訓(xùn)練的。最后，我們希望這項(xiàng)半?yún)?shù)技術(shù)能應(yīng)用到視頻合成上。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4839

瀏覽量
107932
圖像

圖像

+關(guān)注

關(guān)注
2

文章
1096

瀏覽量
42355
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1238

瀏覽量
26222