91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于語(yǔ)義布局的圖像合成更逼真、效果更好

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-07-02 08:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:去年,英特爾實(shí)驗(yàn)室視覺(jué)組主管Vladlen Koltun和斯坦福大學(xué)博士陳啟峰發(fā)表論文Photographic Image Synthesis with Cascaded Refinement Networks,用級(jí)聯(lián)優(yōu)化網(wǎng)絡(luò)生成照片。這種合成的圖片是神經(jīng)網(wǎng)絡(luò)“憑空”生成的,也就是說(shuō),世界上根本找不到這樣的場(chǎng)景。他們的算法可以看做一個(gè)渲染引擎,輸入一張語(yǔ)義布局,告訴算法哪里有道路、哪里有車、交通燈、行人、樹(shù)木,算法就能按照?qǐng)D中的布局輸出一張逼真的圖像,“好比機(jī)器想象出來(lái)的畫(huà)面”。

在這篇論文中,英特爾實(shí)驗(yàn)室和香港中文大學(xué)的研究人員共同創(chuàng)造了一種半?yún)?shù)的圖像合成方法,讓基于語(yǔ)義布局的圖像合成更逼真、效果更好。以下是論智對(duì)原論文的編譯。

在古羅馬作家普林尼的作品《自然史》中記述了這樣一則故事:“公元前五世紀(jì),古希臘畫(huà)家宙克西斯(Zeuxis)以日常繪畫(huà)和對(duì)光影的利用而聞名。他畫(huà)了一個(gè)小男孩舉起葡萄的作品,葡萄非常自然、逼真,竟吸引鳥(niǎo)兒前來(lái)啄食。然而宙克西斯并不滿意,因?yàn)楫?huà)上的男孩舉起葡萄的動(dòng)作還不夠逼真,沒(méi)有嚇跑鳥(niǎo)兒?!奔夹g(shù)高超的畫(huà)家想做出以假亂真的畫(huà)已經(jīng)很困難了,機(jī)器可以實(shí)現(xiàn)這個(gè)任務(wù)嗎?

用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行現(xiàn)實(shí)圖像合成為模擬現(xiàn)實(shí)圖像開(kāi)辟了新方法。在現(xiàn)代數(shù)字藝術(shù)中,能合成非常逼真的圖像的深層網(wǎng)絡(luò)成為一種新工具。通過(guò)賦予它們一種視覺(jué)想象的形式,證明了它們?cè)?a href="http://m.makelele.cn/tags/ai/" target="_blank">AI創(chuàng)造中的有用性。

最近的圖像合成發(fā)展大多得益于基于參數(shù)的模型驅(qū)動(dòng),即能代表所有圖像外觀權(quán)重所有數(shù)據(jù)的深層網(wǎng)絡(luò)。這與人類寫(xiě)實(shí)畫(huà)家的做法完全不同,他們并不是依靠記憶作畫(huà),而是用外部參考當(dāng)做材料來(lái)源,再現(xiàn)目標(biāo)物體的外觀細(xì)節(jié)。這也和之前圖像合成的方法不同,傳統(tǒng)的圖像合成方法基于非參數(shù)技術(shù),可以在測(cè)試時(shí)使用大規(guī)模數(shù)據(jù)集。從非參數(shù)方法轉(zhuǎn)變?yōu)閰?shù)方法,研究人員發(fā)現(xiàn),端到端的訓(xùn)練有著高度表達(dá)的模型。但它在測(cè)試時(shí)放棄了非參數(shù)技術(shù)優(yōu)勢(shì)。

在這篇論文中,我們提出了一種半?yún)?shù)的方法(semi-parametric approach),從語(yǔ)義布局中合成近乎真實(shí)的圖像,這種方法被稱作“半?yún)?shù)圖像合成(semi-parametric image synthesis,SIMS)”。半?yún)?shù)合成方法結(jié)合了參數(shù)和非參數(shù)技術(shù)各自的優(yōu)勢(shì),在所提出的方法中,非參數(shù)部分是指一組與照片相對(duì)的語(yǔ)義布局訓(xùn)練集中繪制的分段數(shù)據(jù)庫(kù)。這些片段用于圖像合成的原始材料,它們通過(guò)深度網(wǎng)絡(luò)應(yīng)用在畫(huà)布上,之后,畫(huà)布會(huì)輸出一張圖像。

Chen和Koltun的研究成果與我們的SIMS方法的成果對(duì)比。第一行是輸入的語(yǔ)義布局

實(shí)驗(yàn)概覽

我們的目標(biāo)是基于語(yǔ)義布局L∈{0, 1}h×w×c合成一張逼真的圖像,其中h×w是圖片尺寸,c是語(yǔ)義類別的數(shù)量。下圖是圖像合成第一階段的大致過(guò)程:

我們的模型在一對(duì)對(duì)圖片和其對(duì)應(yīng)的語(yǔ)義布局上進(jìn)行訓(xùn)練,圖片集是用于生成不同語(yǔ)義類別的圖像片段存儲(chǔ)庫(kù)M,其中的每個(gè)片段Pi都來(lái)源于訓(xùn)練圖像,并且屬于一個(gè)語(yǔ)義類別。圖中的a和b兩部分就是一些片段。

在測(cè)試時(shí),我們會(huì)得到在訓(xùn)練時(shí)從未見(jiàn)過(guò)的語(yǔ)義標(biāo)簽映射L,這個(gè)標(biāo)簽映射會(huì)分解成互相連接的組成部分{Li},對(duì)于每個(gè)連接部分,我們都會(huì)根據(jù)形狀、位置和語(yǔ)境,從M中檢索兼容的片段,即上圖b的步驟。而檢索步驟與Li被一個(gè)經(jīng)過(guò)訓(xùn)練的空間變壓器網(wǎng)絡(luò)相連接,即圖上的c和d。經(jīng)過(guò)轉(zhuǎn)換的片段在畫(huà)布上進(jìn)行合成,C∈Rw×h×3,即上圖中的f。由于片段無(wú)法與{Li}完美重合,也許會(huì)出現(xiàn)重疊的情況。最后e部分用來(lái)進(jìn)行前后排序。

之后,畫(huà)布C和輸入的語(yǔ)義布局L一同被輸入合成網(wǎng)絡(luò)f中,網(wǎng)絡(luò)生成最終的圖像被輸出,過(guò)程如下圖所示:

這一過(guò)程補(bǔ)全了缺失的區(qū)域、調(diào)整檢索到的片段、混合邊界、合成陰影,并且基于畫(huà)布和目標(biāo)布局調(diào)整圖像外觀。具體架構(gòu)和訓(xùn)練過(guò)程可查看原論文。

為了將我們的方法應(yīng)用到較為粗略的語(yǔ)義布局中,我們訓(xùn)練了一個(gè)級(jí)聯(lián)的精煉網(wǎng)絡(luò),用于將粗糙的布局輸入轉(zhuǎn)化成密集的像素級(jí)輸出。

實(shí)驗(yàn)過(guò)程

數(shù)據(jù)集

本次實(shí)驗(yàn)在三個(gè)數(shù)據(jù)集上進(jìn)行:Cityscapes、NYU和ADE20K。Cityscapes數(shù)據(jù)集包含的是城市道路景觀照,其中有3000張帶有精細(xì)標(biāo)記的圖像,20000張粗略標(biāo)記的、用于訓(xùn)練的圖像。我們讓模型在這兩種圖像上分別訓(xùn)練,最終在含有500張圖像的驗(yàn)證數(shù)據(jù)集上進(jìn)行測(cè)試。

對(duì)于NYU數(shù)據(jù)集,我們?cè)谇?200張圖像上進(jìn)行訓(xùn)練,剩下的249張圖像用于測(cè)試。而ADE20K數(shù)據(jù)集是室外圖片,我們中其中1萬(wàn)張圖像進(jìn)行訓(xùn)練,1000張圖像進(jìn)行測(cè)試。

感知測(cè)試

我們將提出的方法和pix2pix以及CRN進(jìn)行了對(duì)比,下圖是結(jié)果,表中的每一項(xiàng)都顯示,我們的方法(SIMS)都比由pix2pix和CRN合成的圖像更真實(shí):

語(yǔ)義分割準(zhǔn)確度

接下來(lái),我們分析了合成圖像的真實(shí)性。給定一個(gè)語(yǔ)義布局L,我們用一種可評(píng)估的方法合成一張圖像I,該圖像之后會(huì)被輸入到一個(gè)預(yù)訓(xùn)練過(guò)的語(yǔ)義分割網(wǎng)絡(luò)(這里我們用PSPNet)。這個(gè)網(wǎng)絡(luò)會(huì)生成一個(gè)語(yǔ)義布局L?,然后我們將L?和L相比較。理論上來(lái)說(shuō),二者越接近,圖像的真實(shí)程度就越高。比較L和L?有兩種方法:intersection over union(IoU)和總體像素精度。

最終的結(jié)果如下:

我們的SIMS方法比pix2pix和CRN生成的圖像更合理、更真實(shí)。

圖像數(shù)據(jù)

接著,我們從低級(jí)圖像數(shù)據(jù)方面分析圖像的真實(shí)性。我們比較了合成圖像的平均經(jīng)典譜(power spectrum)以及對(duì)應(yīng)的數(shù)據(jù)集中的真實(shí)圖像。下圖顯示了三種方法合成圖像的平均經(jīng)典譜:

可以看出,我們的方法生成的平均經(jīng)典譜與真實(shí)圖像的平均經(jīng)典譜非常接近,而其他兩種方法則與真實(shí)圖像有差別。

質(zhì)量結(jié)果

從以下兩張圖中可以看出這三種方法的差別。

結(jié)語(yǔ)

我們所提出的半?yún)?shù)圖像合成方法(SIMS)可以從語(yǔ)義布局中生成圖像,實(shí)驗(yàn)證明這種方法比完全參數(shù)化的技術(shù)生成的圖像更真實(shí)。但是在這之后仍有一些尚未解決的問(wèn)題。首先,我們的方法在部署時(shí)比完全基于參數(shù)的方法慢很多。另外還要開(kāi)發(fā)更高效的數(shù)據(jù)機(jī)構(gòu)和算法。其次,其他形式的輸入也應(yīng)該可用,例如語(yǔ)義實(shí)例分割或者文本描述。第三,我們所提出的方法并不是端到端訓(xùn)練的。最后,我們希望這項(xiàng)半?yún)?shù)技術(shù)能應(yīng)用到視頻合成上。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4839

    瀏覽量

    107932
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42355
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1238

    瀏覽量

    26222

原文標(biāo)題:英特爾實(shí)驗(yàn)室推出半?yún)?shù)圖像合成方法,AI造圖“以假亂真”

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    3D效果逼真的元件封裝庫(kù)網(wǎng)盤下載

    `3D效果逼真的元件封裝庫(kù)網(wǎng)盤下載網(wǎng)盤下載地址:鏈接: https://pan.baidu.com/s/1iprCUYmzmlH7zIvwWQfwWw 提取碼: n7k4 復(fù)制這段內(nèi)容后打開(kāi)百度網(wǎng)盤手機(jī)App,操作方便哦`
    發(fā)表于 03-07 15:23

    目標(biāo)檢測(cè)和圖像語(yǔ)義分割領(lǐng)域性能評(píng)價(jià)指標(biāo)

    目標(biāo)檢測(cè)和圖像語(yǔ)義分割領(lǐng)域的性能評(píng)價(jià)指標(biāo)
    發(fā)表于 05-13 09:57

    基于語(yǔ)義報(bào)文的干擾效果評(píng)估系統(tǒng)設(shè)計(jì)

    分析了干擾效果評(píng)估試驗(yàn)中存在的若干問(wèn)題,提出了改進(jìn)的試驗(yàn)方法,在此基礎(chǔ)上設(shè)計(jì)了基于語(yǔ)義報(bào)文的干擾效果評(píng)估系統(tǒng),并闡述了系統(tǒng)各個(gè)模塊的功能,重點(diǎn)分析了合成模塊和輔助
    發(fā)表于 08-08 14:42 ?0次下載
    基于<b class='flag-5'>語(yǔ)義</b>報(bào)文的干擾<b class='flag-5'>效果</b>評(píng)估系統(tǒng)設(shè)計(jì)

    如何使用知識(shí)圖譜對(duì)圖像語(yǔ)義進(jìn)行分析技術(shù)及應(yīng)用研究

    圖像語(yǔ)義分析技術(shù)一直是圖像領(lǐng)域的研究難點(diǎn)之一,知識(shí)圖譜作為一種智能的知識(shí)組織方式,可以幫助用戶迅速、準(zhǔn)確地查詢到所需要的信息。本文首先提出了一種基于知識(shí)圖譜的圖像
    發(fā)表于 11-21 17:05 ?17次下載
    如何使用知識(shí)圖譜對(duì)<b class='flag-5'>圖像</b><b class='flag-5'>語(yǔ)義</b>進(jìn)行分析技術(shù)及應(yīng)用研究

    DeepFocus,基于AI實(shí)現(xiàn)逼真的VR圖像

    DeepFocus是一種基于AI的渲染系統(tǒng),用于在VR中渲染自然逼真的人眼聚焦效果。本文來(lái)自Facebook工程博客,LiveVideoStack進(jìn)行了翻譯。感謝阿里巴巴高級(jí)算法專家盛驍杰提供的技術(shù)審校。
    的頭像 發(fā)表于 12-29 15:18 ?4461次閱讀

    當(dāng)前生成圖像逼真的BigGAN被谷歌超越!造假效果更為逼真

    當(dāng)前生成圖像逼真的BigGAN被超越了!
    的頭像 發(fā)表于 03-11 15:28 ?5050次閱讀

    AI工具將低像素的面孔變成逼真圖像

    DUL研究人員創(chuàng)建了PULSE(通過(guò)潛伏空間探索進(jìn)行照片上采樣),以根據(jù)低像素源數(shù)據(jù)創(chuàng)建逼真圖像。在今年早些時(shí)候分發(fā)的研究論文中,該團(tuán)隊(duì)解釋了他們的方法與早期從8位圖像生成
    的頭像 發(fā)表于 07-07 09:43 ?2929次閱讀

    人體圖像合成制作可信和逼真的人類圖像

    技術(shù)和算法的開(kāi)發(fā)和精進(jìn)讓AI換臉、AI克隆都成了可實(shí)現(xiàn)的事情。近日,上??萍即髮W(xué)團(tuán)隊(duì)的一項(xiàng)新研究,再一擴(kuò)展了這一領(lǐng)域,其開(kāi)發(fā)建立了人體圖像合成——人體圖像合成的目的是制作可信和
    的頭像 發(fā)表于 12-14 11:17 ?4077次閱讀

    分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的圖像語(yǔ)義分割方法

    隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展及其在語(yǔ)義分割領(lǐng)域的廣泛應(yīng)用,語(yǔ)義分割效果得到顯著提升。對(duì)基于深度神經(jīng)網(wǎng)絡(luò)的圖像語(yǔ)義分割方法進(jìn)行分析與總結(jié),根據(jù)網(wǎng)
    發(fā)表于 03-19 14:14 ?21次下載
    分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>圖像</b><b class='flag-5'>語(yǔ)義</b>分割方法

    基于SEGNET模型的圖像語(yǔ)義分割方法

    使用原始 SEGNET模型對(duì)圖像進(jìn)行語(yǔ)義分割時(shí),未對(duì)圖像中相鄰像素點(diǎn)間的關(guān)系進(jìn)行考慮,導(dǎo)致同一目標(biāo)中像素點(diǎn)類別預(yù)測(cè)結(jié)果不一致。通過(guò)在 SEGNET結(jié)構(gòu)中加入一條自上而下的通道,使得 SEGNET包含
    發(fā)表于 05-27 14:54 ?15次下載

    語(yǔ)義分割標(biāo)注:從認(rèn)知到實(shí)踐

    隨著人工智能技術(shù)的不斷發(fā)展,語(yǔ)義分割標(biāo)注已經(jīng)成為計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)熱門話題。語(yǔ)義分割是指將圖像中的每個(gè)像素分配給一個(gè)預(yù)定義的語(yǔ)義類別,以便在計(jì)算機(jī)視覺(jué)應(yīng)用中進(jìn)行分類和分析。標(biāo)注
    的頭像 發(fā)表于 04-30 21:20 ?1852次閱讀

    深度學(xué)習(xí)圖像語(yǔ)義分割指標(biāo)介紹

    深度學(xué)習(xí)在圖像語(yǔ)義分割上已經(jīng)取得了重大進(jìn)展與明顯的效果,產(chǎn)生了很多專注于圖像語(yǔ)義分割的模型與基準(zhǔn)數(shù)據(jù)集,這些基準(zhǔn)數(shù)據(jù)集提供了一套統(tǒng)一的批判模
    發(fā)表于 10-09 15:26 ?942次閱讀
    深度學(xué)習(xí)<b class='flag-5'>圖像</b><b class='flag-5'>語(yǔ)義</b>分割指標(biāo)介紹

    深入理解渲染引擎:打造逼真圖像的關(guān)鍵

    在數(shù)字世界中,圖像渲染是創(chuàng)造逼真視覺(jué)效果的核心技術(shù)。渲染引擎,作為這一過(guò)程中的關(guān)鍵組件,負(fù)責(zé)將二維或三維的模型、紋理、光照等數(shù)據(jù)轉(zhuǎn)化為人們?nèi)庋劭梢?jiàn)的二維圖像。本文將深入探討渲染引擎的工
    的頭像 發(fā)表于 06-29 08:28 ?1210次閱讀
    深入理解渲染引擎:打造<b class='flag-5'>逼真</b><b class='flag-5'>圖像</b>的關(guān)鍵

    圖像分割與語(yǔ)義分割中的CNN模型綜述

    圖像分割與語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語(yǔ)義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心模型,在
    的頭像 發(fā)表于 07-09 11:51 ?3115次閱讀

    圖像語(yǔ)義分割的實(shí)用性是什么

    圖像語(yǔ)義分割是一種重要的計(jì)算機(jī)視覺(jué)任務(wù),它旨在將圖像中的每個(gè)像素分配到相應(yīng)的語(yǔ)義類別中。這項(xiàng)技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動(dòng)駕駛、醫(yī)學(xué)圖像
    的頭像 發(fā)表于 07-17 09:56 ?1527次閱讀