91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

StyleGAN在圖像質(zhì)量和可控性方面為生成模型樹立了新的標(biāo)桿

OpenCV學(xué)堂 ? 來源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-06-01 11:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

StyleGAN-XL 首次在 ImageNet 上實(shí)現(xiàn)了 1024^2 分辨率圖像合成。

近年來,計(jì)算機(jī)圖形學(xué)領(lǐng)域的研究者一直致力于生成高分辨率的仿真圖像,并經(jīng)歷了一波以數(shù)據(jù)為中心的真實(shí)可控內(nèi)容創(chuàng)作浪潮。其中英偉達(dá)的 StyleGAN 在圖像質(zhì)量和可控性方面為生成模型樹立了新的標(biāo)桿。

但是,當(dāng)用 ImageNet 這樣的大型非結(jié)構(gòu)化數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),StyleGAN 還不能取得令人滿意的結(jié)果。另一個(gè)存在的問題是,當(dāng)需要更大的模型時(shí),或擴(kuò)展到更高的分辨率時(shí),這些方法的成本會(huì)高得令人望而卻步。

比如,英偉達(dá)的 StyleGAN3 項(xiàng)目消耗了令人難以想象的資源和電力。研究者在論文中表示,整個(gè)項(xiàng)目在 NVIDIA V100 內(nèi)部集群上消耗了 92 個(gè) GPU year(即單個(gè) GPU 一年的計(jì)算)和 225 兆瓦時(shí)(Mwh)的電力。有人說,這相當(dāng)于整個(gè)核反應(yīng)堆運(yùn)行大約 15 分鐘。

最初,StyleGAN 的提出是為了明確區(qū)分變量因素,實(shí)現(xiàn)更好的控制和插值質(zhì)量。但它的體系架構(gòu)比標(biāo)準(zhǔn)的生成器網(wǎng)絡(luò)更具限制性,這些限制似乎會(huì)在諸如 ImageNet 這種復(fù)雜和多樣化的數(shù)據(jù)集上訓(xùn)練時(shí)帶來相應(yīng)代價(jià)。

此前有研究者嘗試將 StyleGAN 和 StyleGAN2 擴(kuò)展到 ImageNet [Grigoryev et al. 2022; Gwern 2020],導(dǎo)致結(jié)果欠佳。這讓人們更加相信,對(duì)于高度多樣化的數(shù)據(jù)集來說,StyleGAN 可能會(huì)從根本上受到限制。

受益于更大的 batch 和模型尺寸,BigGAN [Brock et al. 2019] 是 ImageNet 上的圖像合成 SOTA 模型。最近,BigGAN 的性能表現(xiàn)正在被擴(kuò)散模型 [Dhariwal and Nichol 2021] 超越。也有研究發(fā)現(xiàn),擴(kuò)散模型能比 GAN 實(shí)現(xiàn)更多樣化的圖像合成,但是在推理過程中速度明顯減慢,以前的基于 GAN 的編輯工作不能直接應(yīng)用。

此前在擴(kuò)展 StyleGAN 上的失敗嘗試引出了這樣一個(gè)問題:架構(gòu)約束是否從根本上限制了基于 Style 的生成器,或者 missing piece 是否是正確的訓(xùn)練策略。最近的一項(xiàng)工作 [Sauer et al. 2021] 引入了 Projected GAN,將生成和實(shí)際的樣本投射到一個(gè)固定的、預(yù)訓(xùn)練的特征空間。重組 GAN 設(shè)置這種方式顯著改進(jìn)了訓(xùn)練穩(wěn)定性、訓(xùn)練時(shí)間和數(shù)據(jù)效率。然而,Projected GAN 的優(yōu)勢(shì)只是部分地延伸到了這項(xiàng)研究的單模態(tài)數(shù)據(jù)集上的 StyleGAN。

為了解決上述種種問題,英偉達(dá)的研究者近日提出了一種新的架構(gòu)變化,并根據(jù)最新的 StyleGAN3 設(shè)計(jì)了漸進(jìn)式生長的策略。研究者將改進(jìn)后的模型稱為 StyleGAN-XL,該研究目前已經(jīng)入選了 SIGGRAPH 2022。

論文地址:https://arxiv.org/pdf/2202.00273.pdf

代碼地址:https://github.com/autonomousvision/stylegan_xl

這些變化結(jié)合了 Projected GAN 方法,超越了此前在 ImageNet 上訓(xùn)練 StyleGAN 的表現(xiàn)。為了進(jìn)一步改進(jìn)結(jié)果,研究者分析了 Projected GAN 的預(yù)訓(xùn)練特征網(wǎng)絡(luò),發(fā)現(xiàn)當(dāng)計(jì)算機(jī)視覺的兩種標(biāo)準(zhǔn)神經(jīng)結(jié)構(gòu) CNN 和 ViT [ Dosovitskiy et al. 2021] 聯(lián)合使用時(shí),性能顯著提高。最后,研究者利用了分類器引導(dǎo)這種最初為擴(kuò)散模型引入的技術(shù),用以注入額外的類信息。

總體來說,這篇論文的貢獻(xiàn)在于推動(dòng)模型性能超越現(xiàn)有的 GAN 和擴(kuò)散模型,實(shí)現(xiàn)了大規(guī)模圖像合成 SOTA。論文展示了 ImageNet 類的反演和編輯,發(fā)現(xiàn)了一個(gè)強(qiáng)大的新反演范式 Pivotal Tuning Inversion (PTI)[ Roich et al. 2021] ,這一范式能夠與模型很好地結(jié)合,甚至平滑地嵌入域外圖像到學(xué)習(xí)到的潛在空間。高效的訓(xùn)練策略使得標(biāo)準(zhǔn) StyleGAN3 的參數(shù)能夠增加三倍,同時(shí)僅用一小部分訓(xùn)練時(shí)間就達(dá)到擴(kuò)散模型的 SOTA 性能。

這使得 StyleGAN-XL 能夠成為第一個(gè)在 ImageNet-scale 上演示 1024^2 分辨率圖像合成的模型。

將 StyleGAN 擴(kuò)展到 ImageNet

實(shí)驗(yàn)表明,即使是最新的 StyleGAN3 也不能很好地?cái)U(kuò)展到 ImageNet 上,如圖 1 所示。特別是在高分辨率時(shí),訓(xùn)練會(huì)變得不穩(wěn)定。因此,研究者的第一個(gè)目標(biāo)是在 ImageNet 上成功地訓(xùn)練一個(gè) StyleGAN3 生成器。成功的定義取決于主要通過初始評(píng)分 (IS)[Salimans et al. 2016] 衡量的樣本質(zhì)量和 Fréchet 初始距離 (FID)[Heusel et al. 2017] 衡量的多樣性。

在論文中,研究者也介紹了 StyleGAN3 baseline 進(jìn)行的改動(dòng),所帶來的提升如下表 1 所示:

0f08bff4-e15a-11ec-ba43-dac502259ad0.png

研究者首先修改了生成器及其正則化損失,調(diào)整了潛在空間以適應(yīng) Projected GAN (Config-B) 和類條件設(shè)置 (Config-C);然后重新討論了漸進(jìn)式增長,以提高訓(xùn)練速度和性能 (Config-D);接下來研究了用于 Projected GAN 訓(xùn)練的特征網(wǎng)絡(luò),以找到一個(gè)非常適合的配置 (Config-E);最后,研究者提出了分類器引導(dǎo),以便 GAN 通過一個(gè)預(yù)訓(xùn)練的分類器 (Config-F) 提供類信息。

這樣一來,就能夠訓(xùn)練一個(gè)比以前大得多的模型,同時(shí)需要比現(xiàn)有技術(shù)更少的計(jì)算量。StyleGAN-XL 在深度和參數(shù)計(jì)數(shù)方面比標(biāo)準(zhǔn)的 StyleGAN3 大三倍。然而,為了在 512^2 像素的分辨率下匹配 ADM [Dhariwal and Nichol 2021] 先進(jìn)的性能,在一臺(tái) NVIDIA Tesla V100 上訓(xùn)練模型需要 400 天,而以前需要 1914 天。(圖 2)。

0f527dd8-e15a-11ec-ba43-dac502259ad0.png

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)中,研究者首先將 StyleGAN-XL 與 ImageNet 上的 SOTA 圖像合成方法進(jìn)行比較。然后對(duì) StyleGAN-XL 的反演和編輯性能進(jìn)行了評(píng)價(jià)。研究者將模型擴(kuò)展到了 1024^2 像素的分辨率,這是之前在 ImageNet 上沒有嘗試過的。在 ImageNet 中,大多數(shù)圖像的分辨率較低,因此研究者用超分辨率網(wǎng)絡(luò) [Liang et al. 2021] 對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理。

圖像合成

如表 2 所示,研究者在 ImageNet 上對(duì)比了 StyleGAN-XL 和現(xiàn)有最強(qiáng)大的 GAN 模型及擴(kuò)散模型的圖像合成性能。

0f8a0a3c-e15a-11ec-ba43-dac502259ad0.png

有趣的是,StyleGAN-XL 在所有分辨率下都實(shí)現(xiàn)了高度的多樣性,這可以歸功于漸進(jìn)式生長策略。此外,這種策略使擴(kuò)大到百萬像素分辨率的合成變成可能。

在 1024^2 這一分辨率下,StyleGAN-XL 沒有與 baseline 進(jìn)行比較,因?yàn)槭艿劫Y源限制,且它們的訓(xùn)練成本高得令人望而卻步。

圖 3 展示了分辨率提高后的生成樣本可視化結(jié)果。

0fb0f106-e15a-11ec-ba43-dac502259ad0.png

反演和操縱

同時(shí),還可以進(jìn)一步細(xì)化所得到的重構(gòu)結(jié)果。將 PTI [Roich et al. 2021] 和 StyleGAN-XL 相結(jié)合,幾乎可以精確地反演域內(nèi) (ImageNet 驗(yàn)證集) 和域外圖像。同時(shí)生成器的輸出保持平滑,如下圖 4 所示。

0fdd1772-e15a-11ec-ba43-dac502259ad0.png

圖 5、圖 6 展示了 StyleGAN-XL 在圖像操縱方面的性能:

101c12ba-e15a-11ec-ba43-dac502259ad0.png

106363ea-e15a-11ec-ba43-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3772

    瀏覽量

    52171
  • 圖像質(zhì)量
    +關(guān)注

    關(guān)注

    0

    文章

    37

    瀏覽量

    10373
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4104

    瀏覽量

    99375

原文標(biāo)題:英偉達(dá)公布StyleGAN-XL:參數(shù)量3倍于StyleGAN3,計(jì)算時(shí)間僅為五分之一

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【「龍芯之光 自主可控處理器設(shè)計(jì)解析」閱讀體驗(yàn)】+可測(cè)試設(shè)計(jì)章節(jié)閱讀與自己的一些感想

    ,也分享下 自己的一些感想。 先介紹了兩個(gè)術(shù)語DFT可測(cè)試 設(shè)計(jì),ATE自動(dòng)測(cè)試設(shè)備,DFT目的是測(cè)試出制造問題而不是邏輯 bug,因?yàn)镈FT也是固定設(shè)計(jì)的測(cè)試邏輯。 然后介紹了可控性,客觀的概念
    發(fā)表于 01-15 23:30

    使用Firebase AI Logic生成圖像模型的兩種新功能

    是 Gemini 2.5 Flash Image (又名 Nano Banana) 正式版,后者的專長就是情境或?qū)υ捴?b class='flag-5'>生成圖像。
    的頭像 發(fā)表于 11-30 09:28 ?472次閱讀

    福田啟明星樹立純電輕卡價(jià)值新標(biāo)桿

    純電輕卡專屬平臺(tái)打造的福田啟明星,以全維度安全防護(hù)與十年如新的可靠承諾,為純電輕卡樹立了安全與可靠的新標(biāo)桿,更將用戶價(jià)值融入每一項(xiàng)技術(shù)創(chuàng)新之中。
    的頭像 發(fā)表于 11-21 14:47 ?592次閱讀

    樹立行業(yè)新標(biāo)桿:施奈仕uv三防漆通過嚴(yán)苛測(cè)試,定義三防漆可靠新高度

    材料的可靠樹立了新的標(biāo)桿。uv三防漆,施奈仕uv三防漆在電氣性能方面,CA6001的體積電阻率高達(dá)1.04×101?Ω·cm,濕熱絕緣電阻穩(wěn)定在≥5000MΩ,
    的頭像 發(fā)表于 10-24 17:44 ?2555次閱讀
    <b class='flag-5'>樹立</b>行業(yè)新<b class='flag-5'>標(biāo)桿</b>:施奈仕uv三防漆通過嚴(yán)苛測(cè)試,定義三防漆可靠新高度

    寧德時(shí)代獲中國質(zhì)量獎(jiǎng)提名獎(jiǎng),為鋰電發(fā)展樹立質(zhì)量標(biāo)桿

    2025年9月16日,中國質(zhì)量大會(huì)上,國家市場(chǎng)監(jiān)督管理總局正式頒發(fā)第五屆中國質(zhì)量獎(jiǎng),寧德時(shí)代憑借"可信可續(xù)創(chuàng)·時(shí)代"質(zhì)量管理模式,榮獲中國質(zhì)量
    的頭像 發(fā)表于 09-17 11:34 ?813次閱讀
    寧德時(shí)代獲中國<b class='flag-5'>質(zhì)量</b>獎(jiǎng)提名獎(jiǎng),為鋰電發(fā)展<b class='flag-5'>樹立</b><b class='flag-5'>質(zhì)量</b><b class='flag-5'>標(biāo)桿</b>

    中車斫輪大模型通過國家生成式人工智能服務(wù)備案

    提供生成式人工智能服務(wù)的資質(zhì),成為我國軌道交通行業(yè)及央企高端裝備制造業(yè)首個(gè)通過《生成式人工智能服務(wù)管理暫行辦法》備案的大模型系統(tǒng),凸顯中國中車推動(dòng)人工智能與裝備制造業(yè)深度融合進(jìn)程中的
    的頭像 發(fā)表于 09-16 09:16 ?837次閱讀

    【Sipeed MaixCAM Pro開發(fā)板試用體驗(yàn)】基于MaixCAM-Pro的AI生成圖像鑒別系統(tǒng)

    能夠有效捕捉AI生成圖像與真實(shí)手繪掃描圖像在紋理、筆觸、光影、全局一致方面的細(xì)微差異。 邊緣端部署:將
    發(fā)表于 08-21 13:59

    國家級(jí)認(rèn)證!拓維海云天“中文手寫體作文圖像識(shí)別評(píng)分生成算法”通過國家網(wǎng)信辦備案

    近日,國家互聯(lián)網(wǎng)信息辦公室發(fā)布第十二批深度合成服務(wù)算法備案公告,拓維海云天自主研發(fā)的核心技術(shù)成果——“中文手寫體作文圖像識(shí)別評(píng)分生成算法”成功通過備案(備案編號(hào):250011號(hào))。這是拓維海云天
    的頭像 發(fā)表于 08-15 16:42 ?1402次閱讀
    國家級(jí)認(rèn)證!拓維海云天“中文手寫體作文<b class='flag-5'>圖像</b>識(shí)別評(píng)分<b class='flag-5'>生成</b>算法”通過國家網(wǎng)信辦備案

    移遠(yuǎn)通信飛鳶AIoT大模型應(yīng)用算法成功通過備案

    近日,第十二批境內(nèi)深度合成服務(wù)算法備案信息發(fā)布,移遠(yuǎn)通信"飛鳶AIoT大模型應(yīng)用算法"榜上有名。這標(biāo)志著該算法技術(shù)合規(guī)、安全可控性及社會(huì)價(jià)值上獲得權(quán)威認(rèn)可,彰顯了移遠(yuǎn)通信
    的頭像 發(fā)表于 08-06 08:48 ?960次閱讀
    移遠(yuǎn)通信飛鳶AIoT大<b class='flag-5'>模型</b>應(yīng)用算法成功通過備案

    領(lǐng)跑AIoT的關(guān)鍵一步!移遠(yuǎn)大模型應(yīng)用算法成功通過備案

    近日,第十二批境內(nèi)深度合成服務(wù)算法備案信息發(fā)布“飛鳶AIoT大模型應(yīng)用算法”榜上有名這標(biāo)志著該算法技術(shù)合規(guī)、安全可控性以及社會(huì)價(jià)值上獲得權(quán)威認(rèn)可彰顯了移遠(yuǎn)通信
    的頭像 發(fā)表于 08-05 19:05 ?907次閱讀
    領(lǐng)跑AIoT的關(guān)鍵一步!移遠(yuǎn)大<b class='flag-5'>模型</b>應(yīng)用算法成功通過備案

    博聯(lián)智能推出首款大模型具身管家產(chǎn)品

    近日,智能家居領(lǐng)軍企業(yè)BroadLink博聯(lián)智能重磅發(fā)布首款大模型具身管家產(chǎn)品——Max,并深度融入BroadLink智慧家庭生態(tài),為智能家居乃至更廣闊的AI應(yīng)用領(lǐng)域樹立了全新標(biāo)桿!
    的頭像 發(fā)表于 07-24 17:39 ?1162次閱讀

    模型半導(dǎo)體行業(yè)的應(yīng)用可行分析

    有沒有這樣的半導(dǎo)體專用大模型,能縮短芯片設(shè)計(jì)時(shí)間,提高成功率,還能幫助新工程師更快上手。或者軟硬件可以設(shè)計(jì)和制造環(huán)節(jié)確實(shí)有實(shí)際應(yīng)用。會(huì)不會(huì)存在AI缺陷檢測(cè)。 能否應(yīng)用在工藝優(yōu)化和預(yù)測(cè)維護(hù)中
    發(fā)表于 06-24 15:10

    利用NVIDIA 3D引導(dǎo)生成式AI Blueprint控制圖像生成

    AI 賦能的圖像生成技術(shù)突飛猛進(jìn),從早期模型會(huì)生成手指過多的人類圖像,到現(xiàn)在能創(chuàng)造出令人驚嘆的逼真視覺效果。即使取得了如此飛躍,仍然存在一個(gè)
    的頭像 發(fā)表于 06-05 09:24 ?938次閱讀

    Gemini API集成Google圖像生成模型Imagen 3

    開發(fā)者現(xiàn)在可以通過 Gemini API 訪問 Google 最先進(jìn)的圖像生成模型 Imagen 3。該模型最初僅對(duì)付費(fèi)用戶開放,不久后也將面向免費(fèi)用戶推出。
    的頭像 發(fā)表于 05-14 16:53 ?1322次閱讀

    行業(yè)首創(chuàng)20kV耐壓繼電器為高壓開關(guān)樹立標(biāo)桿

    Pickering通過擴(kuò)展其廣受歡迎的63系列舌簧繼電器產(chǎn)品線,將開關(guān)觸點(diǎn)間的耐壓能力提升至20kV,從而樹立了新的行業(yè)標(biāo)桿。 ? 2025年4月,英國克拉克頓濱海:高性能舌簧繼電器領(lǐng)域的全球領(lǐng)導(dǎo)者
    發(fā)表于 04-16 09:59 ?874次閱讀
    行業(yè)首創(chuàng)20kV耐壓繼電器為高壓開關(guān)<b class='flag-5'>樹立</b>新<b class='flag-5'>標(biāo)桿</b>