91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

空間稀疏推理(SSI)加速深度生成模型

3D視覺工坊 ? 來源:計算機視覺工坊 ? 作者:空港 ? 2022-11-08 09:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. 個人理解

生成模型近年來發(fā)展迅猛,已經(jīng)表現(xiàn)出極強的真實感合成能力,在三維重建、AI繪畫、音視頻創(chuàng)作、可控圖像生成、真實圖像編輯等領(lǐng)域的應(yīng)用廣泛。例如,即便沒有繪畫基礎(chǔ),大家也可以很容易利用生成模型繪制大師級畫作。但近年來SOTA生成模型的主要問題是需要大量的計算資源,這一方面是由于深度網(wǎng)絡(luò)的框架較為復(fù)雜,另一方面是因為每次針對圖像可能只是做了很小的改動,但生成模型仍然需要重新計算整張圖像。

在2022 NeurIPS論文“Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models”中,CMU、MIT、斯坦福聯(lián)合提出了空間稀疏推理(SSI),它可以利用編輯區(qū)域的空間稀疏性來加速深度生成模型,并且可以應(yīng)用于各種生成模型!在Apple M1 Pro CPU上的推理速度加快了14倍!

2. 摘要

在圖像編輯期間,現(xiàn)有的深度生成模型傾向于從頭開始重新合成整個輸出,包括未編輯的區(qū)域。這導(dǎo)致了計算的顯著浪費,尤其是對于較小的編輯操作。在這項工作中,我們提出了空間稀疏推理(SSI),這是一種通用技術(shù),它選擇性地對編輯區(qū)域執(zhí)行計算,并加速各種生成模型,包括條件GAN和擴散模型。

我們的主要觀察是,用戶傾向于對輸入圖像進行漸進的改變。這促使我們緩存和重用原始圖像的特征圖。給定一個編輯過的圖像,我們稀疏地將卷積濾波器應(yīng)用于編輯過的區(qū)域,同時為未編輯的區(qū)域重用緩存的特征。

基于我們的算法,我們進一步提出稀疏增量生成引擎(SIGE)來將計算減少轉(zhuǎn)換為現(xiàn)成硬件上的延遲減少。通過1.2%的面積編輯區(qū)域,我們的方法減少了7.5倍的DDIM和18倍的GauGAN的計算,同時保持視覺保真度。通過SIGE,我們加速了3.0倍在RTX 3090上的DDIM和6.6倍在蘋果M1 Pro CPU上的推理時間,以及4.2倍在RTX 3090上的GauGAN和14倍在Apple M1 Pro CPU上的推理時間。

3. 算法分析

3.1 效果對比

話不多說,先看效果! 如圖1(a)所示,上一次編輯的生成結(jié)果已經(jīng)被計算,用戶進一步編輯其中9.4%的區(qū)域。然而,普通的DDIM需要生成整個圖像來計算新編輯的區(qū)域,在未改變的區(qū)域上浪費了80%的計算資源。解決這個問題的一個簡單方法是首先分割新編輯的片段,合成相應(yīng)的輸出片段,并將輸出與先前結(jié)果進行疊加。

但這種方法很容易在新編輯和未編輯的區(qū)域之間產(chǎn)生明顯接縫。 為解決此問題,作者提出了空間稀疏推理(Spatially Sparse Inference,SSI)和稀疏增量生成引擎(SIGE),如圖2(b)所示。作者的關(guān)鍵思想是重用之前編輯的緩存特征圖并稀疏更新新編輯的區(qū)域。

0a3a3d2e-5ef3-11ed-8abf-dac502259ad0.png

圖1 在交互式編輯場景中,用戶添加了一個新的建筑,它占據(jù)了9.4%的像素 如圖2所示是作者與其他生成模型的對比結(jié)果??梢钥闯鱿噍^于DDIM和GauGAN,作者提出的方法計算量大幅降低。其中相較于DDIM,計算量降低了4~6倍,相較于GauGAN,計算量降低了15倍,當(dāng)引入模型壓縮方法以后,計算量進一步減少了47倍。注意一下這里的MACs指標(biāo),1 MAC等于2 FLOPs。

0a6947ea-5ef3-11ed-8abf-dac502259ad0.png

圖2 作者提出方法的計算量對比 重要的是,這種方法可以很容易得推廣到其他生成模型中!進一步降低計算量!

3.2 激活稀疏性

作者的啟發(fā)靈感是,在交互式圖像編輯期間,用戶通常每次只編輯圖像中的一部分。因此,可以為未編輯區(qū)域重用原始圖像的激活。因此,可以利用編輯區(qū)域的空間稀疏性來加速深度生成模型。具體來說,給定用戶輸入,首先計算一個差異掩碼來定位新編輯的區(qū)域。

對于每一個模型中的卷積層,僅稀疏地將濾波器應(yīng)用于掩蔽的區(qū)域,而對未改變的區(qū)域重復(fù)使用先前的生成模型。稀疏更新可以在不損害圖像質(zhì)量的情況下顯著減少計算量。 此外,由于稀疏更新涉及聚集-分散過程,現(xiàn)有的深度學(xué)習(xí)框架會導(dǎo)致顯著的延遲開銷。

為了解決這個問題,作者進一步提出了稀疏增量生成引擎(SIGE)來將算法的理論計算減少轉(zhuǎn)化為在各種硬件上測量的延遲減少。 如圖3所示是具體的算法原理,首先預(yù)計算原始輸入圖像的所有激活。在編輯過程中,通過計算原始圖像和編輯圖像之間的差異掩模來定位編輯區(qū)域。然后,對未編輯的區(qū)域重新使用預(yù)先計算的激活,并且通過對它們應(yīng)用卷積濾波器來僅更新已編輯的區(qū)域。

0abab79c-5ef3-11ed-8abf-dac502259ad0.png

圖3 稀疏卷積原理概述 具體的數(shù)學(xué)推導(dǎo)為:

0aed263c-5ef3-11ed-8abf-dac502259ad0.png

其中Al表示第l層卷積層F的輸入tensor,W和b分別是第l層的權(quán)重和偏置。 如圖4所示,ΔAl共享了用戶所做編輯中的結(jié)構(gòu)化空間稀疏性,因此非零值主要聚集在編輯區(qū)域內(nèi)。這樣就可以直接使用原始圖像和編輯后的圖像來計算一個差異掩碼,并用這個掩碼對ΔAl進行稀疏化。

0b1923f4-5ef3-11ed-8abf-dac502259ad0.png

圖4 左圖:圖像編輯示例。右圖:在不同特征圖分辨率下,DDIM第l層的?Al通道平均值

3.3 稀疏增量生成引擎SIGE

但是如何利用結(jié)構(gòu)化稀疏性來加速Wl*ΔAl呢? 一種簡單的方法是為每個卷積從ΔAl中裁剪一個矩形編輯區(qū)域,并且只計算裁剪區(qū)域的特征。但作者發(fā)現(xiàn)這種裁剪方法對于不規(guī)則的編輯區(qū)域(圖4所示的例子)效果很差。 因此,如圖5所示,作者使用基于tiling的稀疏卷積算法。

首先將差異掩碼向下采樣到不同的比例,并擴展向下采樣的掩碼,將ΔAl在空間上劃分為多個相同大小的小塊。每個塊索引指的是具有非零元素的單個塊。然后將非零塊沿批維度進行相應(yīng)的聚集,并將其饋入卷積Fl。最后,根據(jù)索引將輸出塊分散成零張量,以恢復(fù)原始空間大小,并將預(yù)先計算的殘差計算。

0b3fc338-5ef3-11ed-8abf-dac502259ad0.png

圖5 基于titling的稀疏卷積

4. 實驗

作者分別在三個模型上進行實驗,包括擴散模型和GAN模型:DDIM、Progressive Distillation (PD)、GauGAN。使用LSUN Church數(shù)據(jù)集和Cityscapes數(shù)據(jù)集進行實驗。在評價指標(biāo)方面,使用PSNR、LPIPS、FID來評估圖像質(zhì)量。對于Cityscapes數(shù)據(jù)集還是用了語義分割中的mIoU這一指標(biāo)。

4.1 主要結(jié)果

表1所示是作者方法應(yīng)用于DDIM、Progressive Distillation (PD)和GauGAN的定量結(jié)果,并在圖6中顯示了定性結(jié)果。對于PSNR和LPIPS來說,對于DDIM和Progressive Distillation (PD)來說,作者方法始終優(yōu)于所有基線,并獲得與原始模型相當(dāng)?shù)慕Y(jié)果。當(dāng)由于全局上下文不足而編輯的區(qū)域很小時,補片推理失敗。

盡管作者方法僅將卷積濾波器應(yīng)用于局部編輯區(qū)域,但是可以重用存儲在原始激活中的全局上下文。因此,作者的方法可以像原始模型一樣執(zhí)行。對于GauGAN,作者的方法也比GAN Compression執(zhí)行得更好,MACs減少更多。當(dāng)應(yīng)用于GAN Compression時,進一步實現(xiàn)了大約40倍MACs的減少,性能略有下降,同時超過了0.19 GauGAN和GAN Comp。

表1 定量質(zhì)量評估

0b6ad41a-5ef3-11ed-8abf-dac502259ad0.png

0b866a04-5ef3-11ed-8abf-dac502259ad0.png

圖6 所提出方法的定性對比

在模型模型效率方面,作者測試了了圖6所示的編輯實例在4個設(shè)備上的加速比,包括RTX 3090、RTX 2080Ti、Intel Core i9-10920X CPU和Apple M1 Pro CPU,并且設(shè)置batch size為1來模式真實應(yīng)用。對于GPU設(shè)備,首先執(zhí)行200次預(yù)熱運行,并測量接下來200次運行的平均耗時。對于CPU設(shè)備,首先執(zhí)行10次預(yù)熱運行和10次測試運行,重復(fù)此過程5次并報告平均耗時。結(jié)果如表2所示。

表2 模型效率對比

0bbacc36-5ef3-11ed-8abf-dac502259ad0.png0bf507c0-5ef3-11ed-8abf-dac502259ad0.png

4.2 消融研究

表3顯示了消融研究結(jié)果。 內(nèi)存使用:原始圖像預(yù)先計算的激活需要額外的存儲量,但作者所提出的方法僅將DDIM、PD、GauGAN和GAN Compression的單次轉(zhuǎn)發(fā)的峰值內(nèi)存使用量分別增加了0.1G、0.1G、0.8G和0.3G。表3(a)所示是在RTX 2080Ti上為DDIM添加的每個內(nèi)核優(yōu)化的有效性。

簡單地應(yīng)用基于tiling的稀疏卷積可以將計算量減少7.6倍。表3(b)是在TensorRT上進行了模型部署,TensorRT進一步加快了模型的運行效率。

表3 模型消融實驗結(jié)果

0caa4040-5ef3-11ed-8abf-dac502259ad0.png

5. 結(jié)論

在2022 NeurIPS論文“Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models”中,CMU、MIT、斯坦福聯(lián)合提出了空間稀疏推理(SSI)和稀疏增量生成引擎(SIGE)。這種算法減少了現(xiàn)有深度生成模型的計算資源浪費問題,對于生成模型的落地和應(yīng)用具有重要意義。重要的是,算法已經(jīng)開源,并且可以應(yīng)用于各種生成模型,包括條件GAN和擴散模型!






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11275

    瀏覽量

    224918
  • MIT
    MIT
    +關(guān)注

    關(guān)注

    3

    文章

    254

    瀏覽量

    24996
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    21

    文章

    2366

    瀏覽量

    82161
  • SSI
    SSI
    +關(guān)注

    關(guān)注

    0

    文章

    40

    瀏覽量

    20143

原文標(biāo)題:加速各種生成模型!NeurIPS開源!CMU、MIT、斯坦福提出高效空間稀疏推理!

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    LLM推理模型是如何推理的?

    過程與核心見解拆解。一、核心論點與總覽LRM(如o1,R1)的“推理”能力提升,并非源于模型學(xué)會了人類式的邏輯推理,而是通過兩類主要技術(shù)手段,優(yōu)化了生成過程,使其
    的頭像 發(fā)表于 01-19 15:33 ?470次閱讀
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    基于NVIDIA Alpamayo構(gòu)建具備推理能力的輔助駕駛汽車

    輔助駕駛研究領(lǐng)域正經(jīng)歷一場快速變革。視覺-語言-動作推理模型(Reasoning VLA) 的出現(xiàn)正重塑該領(lǐng)域,這些模型為輔助駕駛決策賦予了類人的思維能力。這類模型可視為在語義空間中運
    的頭像 發(fā)表于 01-14 09:41 ?2030次閱讀
    基于NVIDIA Alpamayo構(gòu)建具備<b class='flag-5'>推理</b>能力的輔助駕駛汽車

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?1257次閱讀

    英特爾Gaudi 2E AI加速器為DeepSeek-V3.1提供加速支持

    英特爾? Gaudi 2EAI加速器現(xiàn)已為DeepSeek-V3.1提供深度優(yōu)化支持。憑借出色的性能和成本效益,英特爾Gaudi 2E以更低的投入、更高的效率,實現(xiàn)從模型訓(xùn)練的深度突破
    的頭像 發(fā)表于 08-26 19:18 ?3018次閱讀
    英特爾Gaudi 2E AI<b class='flag-5'>加速</b>器為DeepSeek-V3.1提供<b class='flag-5'>加速</b>支持

    利用NVIDIA推理模型構(gòu)建AI智能體

    開放式推理模型能夠更快、更廣泛地進行思考,為客戶服務(wù)、網(wǎng)絡(luò)安全、制造、物流和機器人等領(lǐng)域的 AI 智能體生成更明智的結(jié)果。
    的頭像 發(fā)表于 08-13 14:32 ?1579次閱讀
    利用NVIDIA<b class='flag-5'>推理模型</b>構(gòu)建AI智能體

    請問如何在RK3588上使用npu,用onnx模型推理

    請問如何在瑞芯微 RK3588上使用npu,用onnx模型推理。官網(wǎng)上介紹說要把ONNX模型轉(zhuǎn)換成RKNN模型。但是我并不想這么干,請問有什么辦法嗎?
    發(fā)表于 08-09 00:51

    積算科技上線赤兔推理引擎服務(wù),創(chuàng)新解鎖FP8大模型算力

    模型輕量化部署方案。用戶通過遠程算力平臺預(yù)置的模型鏡像與AI工具,僅需50%的GPU算力即可解鎖大模型推理、企業(yè)知識庫搭建、智能體開發(fā),加速
    的頭像 發(fā)表于 07-30 21:44 ?901次閱讀

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡(luò)智能診斷邁向 “自愈”時代

    模態(tài)的技術(shù)特性,DeepSeek正加速推動AI在金融、政務(wù)、科研及網(wǎng)絡(luò)智能化等關(guān)鍵領(lǐng)域的深度應(yīng)用。 信而泰:AI推理引擎賦能網(wǎng)絡(luò)智能診斷新范式信而泰深度整合DeepSeek-R1大
    發(fā)表于 07-16 15:29

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2176次閱讀

    模型推理顯存和計算量估計方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)大模型在各個領(lǐng)域得到了廣泛應(yīng)用。然而,大模型推理過程對顯存和計算資源的需求較高,給實際應(yīng)用帶來了挑戰(zhàn)。為了解決這一問題,本文將探討大
    發(fā)表于 07-03 19:43

    谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命

    谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命 Google 發(fā)布了 Ironwood,這是其第七代張量處理單元 (TPU),專為推理而設(shè)計。這款功能強大的 AI 加速
    的頭像 發(fā)表于 04-12 11:10 ?3712次閱讀
    谷歌第七代TPU Ironwood<b class='flag-5'>深度</b>解讀:AI<b class='flag-5'>推理</b>時代的硬件革命

    詳解 LLM 推理模型的現(xiàn)狀

    領(lǐng)域的最新研究進展,特別是自DeepSeekR1發(fā)布后興起的推理時間計算擴展相關(guān)內(nèi)容。在LLM中實施和改進推理簡單來說,基于LLM的推理模型是一種旨在通過生成中間
    的頭像 發(fā)表于 04-03 12:09 ?1610次閱讀
    詳解 LLM <b class='flag-5'>推理模型</b>的現(xiàn)狀

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 發(fā)布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴展 AI 工廠中的 AI 推理模型。 作為 NVIDIA
    的頭像 發(fā)表于 03-20 15:03 ?1230次閱讀

    OpenVINO? Toolkit中如何保持模型稀疏性?

    OpenVINO? Toolkit 中支持的優(yōu)化方法,保持模型稀疏性。
    發(fā)表于 03-06 06:47

    為什么無法在運行時C++推理中讀取OpenVINO?模型

    使用模型優(yōu)化器 2021.1 版OpenVINO?轉(zhuǎn)換模型 使用 Runtime 2022.3 版本在 C++ 推理實現(xiàn) ( core.read_model()) 中讀取模型Open
    發(fā)表于 03-05 06:17