无码AV在线综合,欧美国产不卡怡红院成人在线,欧美黄色性生活大片免费看。

擴(kuò)散模型正在不斷的「攻城略地」。

擴(kuò)散模型并不是一個(gè)嶄新的概念，早在2015年就已經(jīng)被提出。其核心應(yīng)用領(lǐng)域包括音頻建模、語音合成、時(shí)間序列預(yù)測、降噪等。

那么它在視頻領(lǐng)域表現(xiàn)如何？先前關(guān)于視頻生成的工作通常采用諸如GAN、VAE、基于流的模型。

在視頻生成領(lǐng)域，研究的一個(gè)重要里程碑是生成時(shí)間相干的高保真視頻。來自谷歌的研究者通過提出一個(gè)視頻生成擴(kuò)散模型來實(shí)現(xiàn)這一里程碑，顯示出非常有希望的初步結(jié)果。本文所提出的模型是標(biāo)準(zhǔn)圖像擴(kuò)散架構(gòu)的自然擴(kuò)展，它可以從圖像和視頻數(shù)據(jù)中進(jìn)行聯(lián)合訓(xùn)練，研究發(fā)現(xiàn)這可以減少小批量梯度的方差并加快優(yōu)化速度。

為了生成更長和更高分辨率的視頻，該研究引入了一種新的用于空間和時(shí)間視頻擴(kuò)展的條件采樣技術(shù)，該技術(shù)比以前提出的方法表現(xiàn)更好。

論文地址：https://arxiv.org/pdf/2204.03458.pdf

論文主頁：https://video-diffusion.github.io/

研究展示了文本條件視頻生成的結(jié)果和無條件視頻生成基準(zhǔn)的最新結(jié)果。例如生成五彩斑斕的煙花：

其他生成結(jié)果展示：

這項(xiàng)研究有哪些亮點(diǎn)呢？首先谷歌展示了使用擴(kuò)散模型生成視頻的首個(gè)結(jié)果，包括無條件和有條件設(shè)置。先前關(guān)于視頻生成的工作通常采用其他類型的生成模型，如 GAN、VAE、基于流的模型和自回歸模型。

其次該研究表明，可以通過高斯擴(kuò)散模型的標(biāo)準(zhǔn)公式來生成高質(zhì)量的視頻，除了直接的架構(gòu)更改以適應(yīng)深度學(xué)習(xí)加速器的內(nèi)存限制外，幾乎不需要其他修改。該研究訓(xùn)練生成固定數(shù)量的視頻幀塊的模型，并且為了生成比該幀數(shù)更長的視頻，他們還展示了如何重新調(diào)整訓(xùn)練模型的用途，使其充當(dāng)對(duì)幀進(jìn)行塊自回歸的模型。

方法介紹

圖像擴(kuò)散模型中的標(biāo)準(zhǔn)架構(gòu)是U-Net，它是一種被構(gòu)造為空間下采樣通道的神經(jīng)網(wǎng)絡(luò)架構(gòu)，空間上采樣通道緊隨其后，其中殘差連接到下采樣通道激活。這種神經(jīng)網(wǎng)絡(luò)由2D卷積殘差塊的層構(gòu)建而成，并且每個(gè)這種卷積塊的后面是空間注意力塊。

研究者建議將這一圖像擴(kuò)散模型架構(gòu)擴(kuò)展至視頻數(shù)據(jù)，給定了固定數(shù)量幀的塊，并且使用了在空間和時(shí)間上分解的特定類型的 3D U-Net。

首先，研究者通過將每個(gè) 2D卷積改成space-only 3D卷積對(duì)圖像模型架構(gòu)進(jìn)行修改，比如將每個(gè)3x3卷積改成了1x3x3卷積，即第一個(gè)軸（axis）索引視頻幀，第二和第三個(gè)索引空間高度和寬度。每個(gè)空間注意力塊中的注意力仍然為空間上的注意力，也即第一個(gè)軸被視為批處理軸（batch axis）。

其次，在每個(gè)空間注意力塊之后，研究者插入一個(gè)時(shí)間注意力塊，它在第一個(gè)軸上執(zhí)行注意力并將空間軸視為批處理軸。他們?cè)诿總€(gè)時(shí)間注意力塊中使用相對(duì)位置嵌入，如此網(wǎng)絡(luò)不需要絕對(duì)視頻時(shí)間概念即可區(qū)分幀的順序。3D U-Net 的模型架構(gòu)可視圖如下所示。

我們都知道，得益于分解時(shí)空注意力的計(jì)算效率，在視頻transformers中使用它是一個(gè)很好的選擇。研究者使用的分解時(shí)空架構(gòu)是自身視頻生成設(shè)置獨(dú)有的，它的一大優(yōu)勢是可以直接 mask 模型以在獨(dú)立圖像而非視頻上運(yùn)行，其中只需刪除每個(gè)時(shí)間注意力塊內(nèi)部的注意力操作并修復(fù)注意力矩陣以在每個(gè)視頻時(shí)間步精確匹配每個(gè)鍵和問詢向量。

這樣做的好處是允許聯(lián)合訓(xùn)練視頻和圖像生成的模型。研究者在實(shí)驗(yàn)中發(fā)現(xiàn)，這種聯(lián)合訓(xùn)練對(duì)樣本質(zhì)量非常重要。

新穎的條件生成梯度方法

研究者的主要?jiǎng)?chuàng)新是設(shè)計(jì)了一種新的、用于無條件擴(kuò)散模型的條件生成方法，稱之為梯度方法，它修改了模型的采樣過程以使用基于梯度的優(yōu)化來改進(jìn)去噪數(shù)據(jù)上的條件損失。他們發(fā)現(xiàn)，梯度方法比現(xiàn)有方法更能確保生成樣本與條件信息的一致性。

研究者使用該梯度方法將自己的模型自回歸地?cái)U(kuò)展至更多的時(shí)間步和更高的分辨率。

下圖左為利用梯度方法的視頻幀，圖右為利用自回歸擴(kuò)展基線替代（replacement）方法的幀?？梢钥吹?，使用梯度方法采用的視頻比基線方法具有更好的時(shí)間相干性。

實(shí)驗(yàn)結(jié)果

研究者對(duì)無條件、文本-條件視頻生成模型進(jìn)行了評(píng)估。文本-條件視頻生成是在一個(gè)包含 1000 萬個(gè)字幕視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練，視頻空間分辨率為 64x64 ；對(duì)于無條件視頻生成，該研究在現(xiàn)有基準(zhǔn) [36] 上訓(xùn)練和評(píng)估模型。

無條件視頻建模該研究使用 Soomro 等人[36]提出的基準(zhǔn)對(duì)無條件視頻生成模型進(jìn)行評(píng)估。表 1 展示了該研究所提模型生成的視頻的感知質(zhì)量得分，并與文獻(xiàn)中的方法進(jìn)行了比較，發(fā)現(xiàn)本文方法大大提高了SOTA。

視頻、圖像模型聯(lián)合訓(xùn)練：表 2 報(bào)告了針對(duì)文本-條件的 16x64x64 視頻的實(shí)驗(yàn)結(jié)果。

無分類器指導(dǎo)的效果：表3 表明無分類器指導(dǎo) [13] 在文本-視頻生成方面的有效性。正如預(yù)期的那樣，隨著指導(dǎo)權(quán)重的增加，類 Inception Score 的指標(biāo)有明顯的改進(jìn)，而類 FID 的指標(biāo)隨著引導(dǎo)權(quán)重的增加先改善然后下降。

表 3 報(bào)告的結(jié)果驗(yàn)證了無分類器指導(dǎo) [13] 在文本-視頻生成方面的有效性。正如預(yù)期的那樣，隨著引導(dǎo)權(quán)重的增加，類 Inception Score （IS）的指標(biāo)有明顯的改進(jìn)，而類 FID 的指標(biāo)隨著引導(dǎo)權(quán)重的增加先改善然后下降。這一現(xiàn)象在文本-圖像生成方面也有類似的發(fā)現(xiàn)[23]。

圖 3 顯示了無分類器指導(dǎo) [13] 對(duì)文本-條件視頻模型的影響。與在文本條件圖像生成 [23] 和類條件圖像生成 [13, 11] 上使用無分類器指導(dǎo)的其他工作中觀察到的類似，添加指導(dǎo)提高了每個(gè)圖像的樣本保真度。

針對(duì)較長序列的自回歸視頻擴(kuò)展：3.1節(jié)提出了基于擴(kuò)散模型的條件采樣梯度法，這是對(duì)[35]中替換方法的改進(jìn)。表4展示了使用這兩種技術(shù)生成較長視頻的結(jié)果，由結(jié)果可得本文提出的方法在感知質(zhì)量分?jǐn)?shù)方面確實(shí)優(yōu)于替換方法。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴