91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

擴(kuò)散模型在視頻領(lǐng)域表現(xiàn)如何?

新機(jī)器視覺 ? 來源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-04-13 10:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

擴(kuò)散模型正在不斷的「攻城略地」。

擴(kuò)散模型并不是一個(gè)嶄新的概念,早在2015年就已經(jīng)被提出。其核心應(yīng)用領(lǐng)域包括音頻建模、語音合成、時(shí)間序列預(yù)測、降噪等。

那么它在視頻領(lǐng)域表現(xiàn)如何?先前關(guān)于視頻生成的工作通常采用諸如GAN、VAE、基于流的模型。

在視頻生成領(lǐng)域,研究的一個(gè)重要里程碑是生成時(shí)間相干的高保真視頻。來自谷歌的研究者通過提出一個(gè)視頻生成擴(kuò)散模型來實(shí)現(xiàn)這一里程碑,顯示出非常有希望的初步結(jié)果。本文所提出的模型是標(biāo)準(zhǔn)圖像擴(kuò)散架構(gòu)的自然擴(kuò)展,它可以從圖像和視頻數(shù)據(jù)中進(jìn)行聯(lián)合訓(xùn)練,研究發(fā)現(xiàn)這可以減少小批量梯度的方差并加快優(yōu)化速度。

為了生成更長和更高分辨率的視頻,該研究引入了一種新的用于空間和時(shí)間視頻擴(kuò)展的條件采樣技術(shù),該技術(shù)比以前提出的方法表現(xiàn)更好。

30908a38-ba83-11ec-aa7f-dac502259ad0.png

論文地址:https://arxiv.org/pdf/2204.03458.pdf

論文主頁:https://video-diffusion.github.io/

研究展示了文本條件視頻生成的結(jié)果和無條件視頻生成基準(zhǔn)的最新結(jié)果。例如生成五彩斑斕的煙花:

30a02fc4-ba83-11ec-aa7f-dac502259ad0.gif

其他生成結(jié)果展示:

30c6b572-ba83-11ec-aa7f-dac502259ad0.gif

這項(xiàng)研究有哪些亮點(diǎn)呢?首先谷歌展示了使用擴(kuò)散模型生成視頻的首個(gè)結(jié)果,包括無條件和有條件設(shè)置。先前關(guān)于視頻生成的工作通常采用其他類型的生成模型,如 GAN、VAE、基于流的模型和自回歸模型。

其次該研究表明,可以通過高斯擴(kuò)散模型的標(biāo)準(zhǔn)公式來生成高質(zhì)量的視頻,除了直接的架構(gòu)更改以適應(yīng)深度學(xué)習(xí)加速器的內(nèi)存限制外,幾乎不需要其他修改。該研究訓(xùn)練生成固定數(shù)量的視頻幀塊的模型,并且為了生成比該幀數(shù)更長的視頻,他們還展示了如何重新調(diào)整訓(xùn)練模型的用途,使其充當(dāng)對(duì)幀進(jìn)行塊自回歸的模型。

方法介紹

圖像擴(kuò)散模型中31a1e930-ba83-11ec-aa7f-dac502259ad0.png的標(biāo)準(zhǔn)架構(gòu)是U-Net,它是一種被構(gòu)造為空間下采樣通道的神經(jīng)網(wǎng)絡(luò)架構(gòu),空間上采樣通道緊隨其后,其中殘差連接到下采樣通道激活。這種神經(jīng)網(wǎng)絡(luò)由2D卷積殘差塊的層構(gòu)建而成,并且每個(gè)這種卷積塊的后面是空間注意力塊。

研究者建議將這一圖像擴(kuò)散模型架構(gòu)擴(kuò)展至視頻數(shù)據(jù),給定了固定數(shù)量幀的塊,并且使用了在空間和時(shí)間上分解的特定類型的 3D U-Net。

首先,研究者通過將每個(gè) 2D卷積改成space-only 3D卷積對(duì)圖像模型架構(gòu)進(jìn)行修改,比如將每個(gè)3x3卷積改成了1x3x3卷積,即第一個(gè)軸(axis)索引視頻幀,第二和第三個(gè)索引空間高度和寬度。每個(gè)空間注意力塊中的注意力仍然為空間上的注意力,也即第一個(gè)軸被視為批處理軸(batch axis)。

其次,在每個(gè)空間注意力塊之后,研究者插入一個(gè)時(shí)間注意力塊,它在第一個(gè)軸上執(zhí)行注意力并將空間軸視為批處理軸。他們?cè)诿總€(gè)時(shí)間注意力塊中使用相對(duì)位置嵌入,如此網(wǎng)絡(luò)不需要絕對(duì)視頻時(shí)間概念即可區(qū)分幀的順序。3D U-Net 的模型架構(gòu)可視圖如下所示。

31acf762-ba83-11ec-aa7f-dac502259ad0.png

我們都知道,得益于分解時(shí)空注意力的計(jì)算效率,在視頻transformers中使用它是一個(gè)很好的選擇。研究者使用的分解時(shí)空架構(gòu)是自身視頻生成設(shè)置獨(dú)有的,它的一大優(yōu)勢是可以直接 mask 模型以在獨(dú)立圖像而非視頻上運(yùn)行,其中只需刪除每個(gè)時(shí)間注意力塊內(nèi)部的注意力操作并修復(fù)注意力矩陣以在每個(gè)視頻時(shí)間步精確匹配每個(gè)鍵和問詢向量。

這樣做的好處是允許聯(lián)合訓(xùn)練視頻和圖像生成的模型。研究者在實(shí)驗(yàn)中發(fā)現(xiàn),這種聯(lián)合訓(xùn)練對(duì)樣本質(zhì)量非常重要。

新穎的條件生成梯度方法

研究者的主要?jiǎng)?chuàng)新是設(shè)計(jì)了一種新的、用于無條件擴(kuò)散模型的條件生成方法,稱之為梯度方法,它修改了模型的采樣過程以使用基于梯度的優(yōu)化來改進(jìn)去噪數(shù)據(jù)上的條件損失。他們發(fā)現(xiàn),梯度方法比現(xiàn)有方法更能確保生成樣本與條件信息的一致性。

研究者使用該梯度方法將自己的模型自回歸地?cái)U(kuò)展至更多的時(shí)間步和更高的分辨率。

下圖左為利用梯度方法的視頻幀,圖右為利用自回歸擴(kuò)展基線替代(replacement)方法的幀??梢钥吹?,使用梯度方法采用的視頻比基線方法具有更好的時(shí)間相干性。

31baddd2-ba83-11ec-aa7f-dac502259ad0.png

實(shí)驗(yàn)結(jié)果

研究者對(duì)無條件、文本-條件視頻生成模型進(jìn)行了評(píng)估。文本-條件視頻生成是在一個(gè)包含 1000 萬個(gè)字幕視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練,視頻空間分辨率為 64x64 ;對(duì)于無條件視頻生成,該研究在現(xiàn)有基準(zhǔn) [36] 上訓(xùn)練和評(píng)估模型。

無條件視頻建模該研究使用 Soomro 等人[36]提出的基準(zhǔn)對(duì)無條件視頻生成模型進(jìn)行評(píng)估。表 1 展示了該研究所提模型生成的視頻的感知質(zhì)量得分,并與文獻(xiàn)中的方法進(jìn)行了比較,發(fā)現(xiàn)本文方法大大提高了SOTA。

31d7767c-ba83-11ec-aa7f-dac502259ad0.png

視頻、圖像模型聯(lián)合訓(xùn)練:表 2 報(bào)告了針對(duì)文本-條件的 16x64x64 視頻的實(shí)驗(yàn)結(jié)果。

31eaf116-ba83-11ec-aa7f-dac502259ad0.png

無分類器指導(dǎo)的效果:表3 表明無分類器指導(dǎo) [13] 在文本-視頻生成方面的有效性。正如預(yù)期的那樣,隨著指導(dǎo)權(quán)重的增加,類 Inception Score 的指標(biāo)有明顯的改進(jìn),而類 FID 的指標(biāo)隨著引導(dǎo)權(quán)重的增加先改善然后下降。

表 3 報(bào)告的結(jié)果驗(yàn)證了無分類器指導(dǎo) [13] 在文本-視頻生成方面的有效性。正如預(yù)期的那樣,隨著引導(dǎo)權(quán)重的增加,類 Inception Score (IS)的指標(biāo)有明顯的改進(jìn),而類 FID 的指標(biāo)隨著引導(dǎo)權(quán)重的增加先改善然后下降。這一現(xiàn)象在文本-圖像生成方面也有類似的發(fā)現(xiàn)[23]。

31fa1d94-ba83-11ec-aa7f-dac502259ad0.png

圖 3 顯示了無分類器指導(dǎo) [13] 對(duì)文本-條件視頻模型的影響。與在文本條件圖像生成 [23] 和類條件圖像生成 [13, 11] 上使用無分類器指導(dǎo)的其他工作中觀察到的類似,添加指導(dǎo)提高了每個(gè)圖像的樣本保真度。

3209e472-ba83-11ec-aa7f-dac502259ad0.png

針對(duì)較長序列的自回歸視頻擴(kuò)展:3.1節(jié)提出了基于擴(kuò)散模型的條件采樣梯度法,這是對(duì)[35]中替換方法的改進(jìn)。表4展示了使用這兩種技術(shù)生成較長視頻的結(jié)果,由結(jié)果可得本文提出的方法在感知質(zhì)量分?jǐn)?shù)方面確實(shí)優(yōu)于替換方法。

3237c806-ba83-11ec-aa7f-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 視頻
    +關(guān)注

    關(guān)注

    6

    文章

    2005

    瀏覽量

    74966
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    21

    文章

    2366

    瀏覽量

    82386
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3752

    瀏覽量

    52113

原文標(biāo)題:視頻生成無需GAN、VAE,谷歌用擴(kuò)散模型聯(lián)合訓(xùn)練視頻、圖像,實(shí)現(xiàn)新SOTA

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    杭晶電子差分晶振產(chǎn)品視頻領(lǐng)域的應(yīng)用

    隨著高清視頻、4K/8K顯示以及視頻會(huì)議、直播等應(yīng)用的快速發(fā)展,視頻設(shè)備對(duì)時(shí)鐘信號(hào)的穩(wěn)定性、低抖動(dòng)和高頻率要求不斷提高。差分晶振因其獨(dú)特的技術(shù)優(yōu)勢,逐漸
    的頭像 發(fā)表于 12-24 11:40 ?712次閱讀
    杭晶電子差分晶振產(chǎn)品<b class='flag-5'>在</b><b class='flag-5'>視頻</b><b class='flag-5'>領(lǐng)域</b>的應(yīng)用

    Termux手機(jī)攝像頭采集圖像/視頻流 部署 YOLO 模型推理

    Termux手機(jī)攝像頭采集圖像/視頻流 部署 YOLO 模型推理
    的頭像 發(fā)表于 12-14 07:26 ?2859次閱讀

    探索RISC-V機(jī)器人領(lǐng)域的潛力

    SLAM等輕量級(jí)算法時(shí)表現(xiàn)出了不錯(cuò)的性能,CPU占用率可接受范圍內(nèi)。整個(gè)系統(tǒng)響應(yīng)及時(shí),證明了MUSE Pi Pro完全有能力作為小型移動(dòng)機(jī)器人的“大腦”。 四、 其他功能淺嘗 ? AI模型部署
    發(fā)表于 12-03 14:40

    物質(zhì)擴(kuò)散與污染物監(jiān)測系統(tǒng)軟件:多領(lǐng)域環(huán)境守護(hù)的智能中樞

    物質(zhì)擴(kuò)散與污染物監(jiān)測系統(tǒng)
    的頭像 發(fā)表于 08-25 16:26 ?481次閱讀

    國產(chǎn)主板耐用性和可靠性上有哪些具體表現(xiàn)

    國產(chǎn)主板耐用性和可靠性上有著諸多令人矚目的具體表現(xiàn),不同領(lǐng)域發(fā)揮著關(guān)鍵作用。
    的頭像 發(fā)表于 07-22 18:21 ?1061次閱讀

    AI視頻分析化工領(lǐng)域的應(yīng)用和開發(fā)

    AI視頻分析化工領(lǐng)域的應(yīng)用正深刻改變這一高風(fēng)險(xiǎn)行業(yè)的安全生產(chǎn)模式,通過智能視覺技術(shù)實(shí)現(xiàn)從“人防”到“技防”的升級(jí)。以下是關(guān)鍵技術(shù)落地場景及實(shí)施案例: ? 一、核心應(yīng)用場景 1. 人員安全管
    的頭像 發(fā)表于 07-22 11:47 ?882次閱讀

    百度重磅發(fā)布!全球首創(chuàng)中文音視頻模型

    電子發(fā)燒友網(wǎng)綜合報(bào)道 2025年7月2日,百度北京正式發(fā)布全球首個(gè)中文音視頻一體化生成模型——MuseSteamer,標(biāo)志著其正式進(jìn)軍圖生視頻領(lǐng)域
    的頭像 發(fā)表于 07-11 09:18 ?4395次閱讀

    一種基于擴(kuò)散模型視頻生成框架RoboTransfer

    機(jī)器人操作領(lǐng)域,模仿學(xué)習(xí)是推動(dòng)具身智能發(fā)展的關(guān)鍵路徑,但高度依賴大規(guī)模、高質(zhì)量的真實(shí)演示數(shù)據(jù),面臨高昂采集成本與效率瓶頸。仿真器雖提供了低成本數(shù)據(jù)生成方案,但顯著的“模擬到現(xiàn)實(shí)”(Sim2Real)鴻溝,制約了仿真數(shù)據(jù)訓(xùn)練策略的泛化能力與落地應(yīng)用。
    的頭像 發(fā)表于 07-09 14:02 ?835次閱讀
    一種基于<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的<b class='flag-5'>視頻</b>生成框架RoboTransfer

    無法使用OpenVINO? GPU 設(shè)備上運(yùn)行穩(wěn)定擴(kuò)散文本到圖像的原因?

    OpenVINO? GPU 設(shè)備上使用圖像大小 (1024X576) 運(yùn)行穩(wěn)定擴(kuò)散文本到圖像,并收到錯(cuò)誤消息: RuntimeError: Exception from
    發(fā)表于 06-25 06:36

    模型半導(dǎo)體行業(yè)的應(yīng)用可行性分析

    的應(yīng)用,比如使用機(jī)器學(xué)習(xí)分析數(shù)據(jù),提升良率。 這一些大模型是否真的有幫助 能夠解決工程師的知識(shí)斷層問題 本人純小白,不知道如何涉足這方面 應(yīng)該問什么大模型比較好,或者是看什么視頻能夠
    發(fā)表于 06-24 15:10

    明遠(yuǎn)智睿SSD2351開發(fā)板:視頻監(jiān)控領(lǐng)域的卓越之選

    隨著安全防范意識(shí)的提高,視頻監(jiān)控各個(gè)領(lǐng)域得到了廣泛應(yīng)用。明遠(yuǎn)智睿SSD2351開發(fā)板憑借其出色的性能和特性,成為視頻監(jiān)控領(lǐng)域的卓越之選,為
    發(fā)表于 05-30 10:24

    奧松電子擴(kuò)散硅壓力變送器的優(yōu)勢

    快速發(fā)展的工業(yè)領(lǐng)域,精準(zhǔn)的壓力測量與控制是保障生產(chǎn)安全、提升產(chǎn)品質(zhì)量的關(guān)鍵。奧松電子傾力打造的擴(kuò)散硅壓力變送器,憑借優(yōu)良的性能和廣泛的應(yīng)用領(lǐng)域,成為了眾多工業(yè)企業(yè)的信賴之選。這款變送
    的頭像 發(fā)表于 05-20 14:42 ?894次閱讀
    奧松電子<b class='flag-5'>擴(kuò)散</b>硅壓力變送器的優(yōu)勢

    基于Nanopaint壓感油墨系統(tǒng)的柔性傳感系統(tǒng)體育表現(xiàn)監(jiān)測中的應(yīng)用

    干擾運(yùn)動(dòng)員的表現(xiàn)。 Nanopaint壓阻式墨水在運(yùn)動(dòng)領(lǐng)域的關(guān)鍵特性 高靈敏度:可檢測極微小的壓力與應(yīng)變變化,捕捉詳盡的生物力學(xué)數(shù)據(jù)。 柔韌性與貼合性:可適應(yīng)人體運(yùn)動(dòng),不限制動(dòng)作。 耐久性:能承受
    發(fā)表于 05-14 13:18

    國產(chǎn)地物光譜儀“高光譜-機(jī)器學(xué)習(xí)”模型構(gòu)建中的表現(xiàn)

    遙感應(yīng)用和環(huán)境監(jiān)測日益精細(xì)化的今天,“高光譜 + 機(jī)器學(xué)習(xí)”的組合已成為地物識(shí)別、礦產(chǎn)探測、農(nóng)業(yè)監(jiān)測等領(lǐng)域的重要技術(shù)手段。而作為獲取高光譜數(shù)據(jù)的前端工具,地物光譜儀的性能直接影響到后續(xù)模型的精度
    的頭像 發(fā)表于 04-18 16:15 ?745次閱讀
    國產(chǎn)地物光譜儀<b class='flag-5'>在</b>“高光譜-機(jī)器學(xué)習(xí)”<b class='flag-5'>模型</b>構(gòu)建中的<b class='flag-5'>表現(xiàn)</b>

    DiffusionDrive首次端到端自動(dòng)駕駛中引入擴(kuò)散模型

    多樣性是提升自動(dòng)駕駛魯棒性和安全性的關(guān)鍵,但現(xiàn)有方法往往受限于單一軌跡回歸或固定錨點(diǎn)采樣,難以全面建模駕駛決策空間。 擴(kuò)散模型 (Diffusion Model) 憑借強(qiáng)大的多模態(tài)建模能力,已在機(jī)器人決策學(xué)習(xí)中得到驗(yàn)證。其逐步去噪機(jī)制
    的頭像 發(fā)表于 03-08 13:59 ?1808次閱讀
    DiffusionDrive首次<b class='flag-5'>在</b>端到端自動(dòng)駕駛中引入<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>