91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NUS&深大提出VisorGPT:為可控文本圖像生成定制空間條件

CVer ? 來源:CVer ? 2023-09-26 16:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

論文簡(jiǎn)介

可控?cái)U(kuò)散模型如ControlNet、T2I-Adapter和GLIGEN等可通過額外添加的空間條件如人體姿態(tài)、目標(biāo)框來控制生成圖像中內(nèi)容的具體布局。使用從已有的圖像中提取的人體姿態(tài)、目標(biāo)框或者數(shù)據(jù)集中的標(biāo)注作為空間限制條件,上述方法已經(jīng)獲得了非常好的可控圖像生成效果。那么如何更友好、方便地獲得空間限制條件?或者說如何自定義空間條件用于可控圖像生成呢?例如自定義空間條件中物體的類別、大小、數(shù)量、以及表示形式(目標(biāo)框、關(guān)鍵點(diǎn)、和實(shí)例掩碼)。

本文將空間條件中物體的形狀、位置以及它們之間的關(guān)系等性質(zhì)總結(jié)為視覺先驗(yàn)(Visual Prior),并使用Transformer Decoder以Generative Pre-Training的方式來建模上述視覺先驗(yàn)。因此,我們可以從學(xué)習(xí)好的先驗(yàn)中通過Prompt從多個(gè)層面,例如表示形式(目標(biāo)框、關(guān)鍵點(diǎn)、實(shí)例掩碼)、物體類別、大小和數(shù)量,來采樣空間限制條件。我們?cè)O(shè)想,隨著可控?cái)U(kuò)散模型生成能力的提升,以此可以針對(duì)性地生成圖像用于特定場(chǎng)景下的數(shù)據(jù)補(bǔ)充,例如擁擠場(chǎng)景下的人體姿態(tài)估計(jì)和目標(biāo)檢測(cè)。

方法介紹

表1 訓(xùn)練數(shù)據(jù)

e17fe920-5c2a-11ee-939d-92fbcf53809c.png

本文從當(dāng)前公開的數(shù)據(jù)集中整理收集了七種數(shù)據(jù),如表1所示。為了以Generative Pre-Training的方式學(xué)習(xí)視覺先驗(yàn)并且添加序列輸出的可定制功能,本文提出以下兩種Prompt模板:

e198337c-5c2a-11ee-939d-92fbcf53809c.png

使用上述模板可以將表1中訓(xùn)練數(shù)據(jù)中每一張圖片的標(biāo)注格式化成一個(gè)序列x。在訓(xùn)練過程中,我們使用BPE算法將每個(gè)序列x編碼成tokens={u1,u2,…,u3},并通過極大化似然來學(xué)習(xí)視覺先驗(yàn),如下式:

e1b004d4-5c2a-11ee-939d-92fbcf53809c.png

最后,我們可以從上述方式學(xué)習(xí)獲得的模型中定制序列輸出,如下圖所示。

e1be4bfc-5c2a-11ee-939d-92fbcf53809c.png

圖1 定制序列輸出

效果展示

e1db2844-5c2a-11ee-939d-92fbcf53809c.png

e1fa30cc-5c2a-11ee-939d-92fbcf53809c.png

e21c6426-5c2a-11ee-939d-92fbcf53809c.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3752

    瀏覽量

    52111
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26201
  • 圖像生成
    +關(guān)注

    關(guān)注

    0

    文章

    25

    瀏覽量

    7169

原文標(biāo)題:NeurIPS 2023 | NUS&深大提出VisorGPT:為可控文本圖像生成定制空間條件

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    LoRa1121 FCC&CE認(rèn)證 多頻段LoRa無(wú)線通訊模塊規(guī)格書

    LoRa1121 FCC&CE認(rèn)證 多頻段LoRa無(wú)線通訊模塊規(guī)格書
    發(fā)表于 02-26 14:36 ?0次下載

    探秘EV系列0.8 Amp敏感可控硅:特性、應(yīng)用與設(shè)計(jì)要點(diǎn)

    探秘EV系列0.8 Amp敏感可控硅:特性、應(yīng)用與設(shè)計(jì)要點(diǎn) 在電子工程師的日常設(shè)計(jì)工作中,可控硅(SCR)是一種常見且關(guān)鍵的半導(dǎo)體器件,廣泛應(yīng)用于各種電路中。今天,我們將深入探討Littelfuse
    的頭像 發(fā)表于 12-16 13:50 ?322次閱讀

    30/35 Amp高溫雙向可控硅——QJxx30xH4 & QJxx35xH4系列的特性與應(yīng)用

    30/35 Amp高溫雙向可控硅——QJxx30xH4 QJxx35xH4系列的特性與應(yīng)用 在電子工程師的日常設(shè)計(jì)工作中,可控硅是交流電源控制應(yīng)用里常用的器件。今天,我們就來深入探討一下
    的頭像 發(fā)表于 12-16 10:30 ?369次閱讀

    【深度實(shí)戰(zhàn)】MYD-LR3576 AMP非對(duì)稱多核開發(fā)指南:從配置到實(shí)戰(zhàn)

    多處理),AMP具有獨(dú)特優(yōu)勢(shì)。核心特性:異構(gòu)運(yùn)算:不同核心運(yùn)行最適合的操作系統(tǒng),如Linux處理復(fù)雜應(yīng)用,RT-Thread保障實(shí)時(shí)任務(wù);資源隔離:各核心擁有獨(dú)立內(nèi)存空間,避免
    的頭像 發(fā)表于 12-05 08:07 ?7132次閱讀
    【深度實(shí)戰(zhàn)】MYD-LR3576 <b class='flag-5'>AMP</b>非對(duì)稱多核開發(fā)指南:從配置到實(shí)戰(zhàn)

    羅德與施瓦茨宣布推出新頻段 R&amp;amp;amp;S ZNB3000 矢量網(wǎng)絡(luò)分析儀,頻率高達(dá) 54 GHz

    R&amp;SZNB3000以業(yè)界領(lǐng)先的測(cè)量速度、出色的擴(kuò)展能力及一流射頻性能,中端矢量網(wǎng)絡(luò)分析儀市場(chǎng)樹立了新標(biāo)桿。隨著高頻型號(hào)的加入,R&amp;SZNB3000將覆蓋更廣泛的應(yīng)用場(chǎng)景。羅德與施
    的頭像 發(fā)表于 12-04 17:04 ?625次閱讀
    羅德與施瓦茨宣布推出新頻段 R&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;S ZNB3000 矢量網(wǎng)絡(luò)分析儀,頻率高達(dá) 54 GHz

    rt-thread studio debug生成了elf &amp;amp; map,為什么不生成反匯編呢?

    開發(fā)中crash后dump出了現(xiàn)場(chǎng),需要通過反匯編文件確定crash的lr &amp;amp; pc,大部分使用rtthread studio的環(huán)境是windows,在windows下倒反匯編文件
    發(fā)表于 09-18 07:13

    1218 MHz 高輸出 GaN CATV 功率倍增器 Amp擴(kuò)音器 skyworksinc

    電子發(fā)燒友網(wǎng)你提供()1218 MHz 高輸出 GaN CATV 功率倍增器 Amp擴(kuò)音器相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有1218 MHz 高輸出 GaN CATV 功率倍增器 Amp擴(kuò)音器的引腳圖
    發(fā)表于 09-01 18:30
    1218 MHz 高輸出 GaN CATV 功率倍增器 <b class='flag-5'>Amp</b>擴(kuò)音器 skyworksinc

    870 MHz、25 dB 增益 CATV 功率倍增器 Amp擴(kuò)音器 skyworksinc

    電子發(fā)燒友網(wǎng)你提供()870 MHz、25 dB 增益 CATV 功率倍增器 Amp擴(kuò)音器相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有870 MHz、25 dB 增益 CATV 功率倍增器 Amp擴(kuò)音器的引腳圖
    發(fā)表于 09-01 18:30
    870 MHz、25 dB 增益 CATV 功率倍增器 <b class='flag-5'>Amp</b>擴(kuò)音器 skyworksinc

    1 GHz、28 dB 增益 CATV 功率倍增器 Amp擴(kuò)音器 skyworksinc

    電子發(fā)燒友網(wǎng)你提供()1 GHz、28 dB 增益 CATV 功率倍增器 Amp擴(kuò)音器相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有1 GHz、28 dB 增益 CATV 功率倍增器 Amp擴(kuò)音器的引腳圖、接線圖
    發(fā)表于 08-29 18:35
    1 GHz、28 dB 增益 CATV 功率倍增器 <b class='flag-5'>Amp</b>擴(kuò)音器 skyworksinc

    CS86706適用1~3節(jié)鋰電應(yīng)用,內(nèi)置升壓模塊,2×30W立體聲&amp;amp;amp;50W單聲道R類音頻功率放大器

    CS86706適用1~3節(jié)鋰電應(yīng)用,內(nèi)置升壓模塊,2×30W立體聲&amp;amp;50W單聲道R類音頻功率放大器
    的頭像 發(fā)表于 07-16 20:42 ?658次閱讀
    CS86706適用1~3節(jié)鋰電應(yīng)用,內(nèi)置升壓模塊,2×30W立體聲&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;50W單聲道R類音頻功率放大器

    關(guān)于鴻蒙App上架中“AI文本生成模塊的資質(zhì)證明文件”的情況說明

    檢查結(jié)果“通過”或?qū)徍藸顟B(tài)“審核通過”。 那么對(duì)于這個(gè)問題,我也是嘗試去解決……這里分享一下我了解到的情況和方法 首先,這個(gè)政策雖然說是針對(duì)AI文本生成模塊,但實(shí)際上,針對(duì)的是所有調(diào)用了AI大模型
    發(fā)表于 06-30 18:37

    新知|Verizon與AT&amp;amp;amp;T也可以手機(jī)直接連接衛(wèi)星了

    近日,Verizon與AT&amp;T宣布,手機(jī)直連衛(wèi)星方面取得重要進(jìn)展,使用普通手機(jī)實(shí)現(xiàn)了通過衛(wèi)星的視頻通話。很顯然,Verizon與AT&amp;T的這一舉措是針對(duì)此前T-Mobile
    的頭像 發(fā)表于 06-19 07:07 ?1141次閱讀
    新知|Verizon與AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T也可以手機(jī)直接連接衛(wèi)星了

    rt-thread studio debug生成了elf &amp;amp;amp; map,為什么不生成反匯編?

    開發(fā)中crash后dump出了現(xiàn)場(chǎng),需要通過反匯編文件確定crash的lr &amp;amp; pc,大部分使用rtthread studio的環(huán)境是windows,在windows下倒反匯編文件
    發(fā)表于 06-11 06:42

    多模塊配置!YU系列USB、Type-C連接器工控機(jī)打造&amp;amp;quot;全能型&amp;amp;quot;數(shù)據(jù)傳輸方案

    背景介紹工控機(jī)是一類用于工業(yè)、野外等復(fù)雜惡劣環(huán)境的專用計(jì)算機(jī)設(shè)備,如何實(shí)現(xiàn)穩(wěn)如磐石的數(shù)據(jù)傳輸是關(guān)鍵?凌科電氣YU-USB&amp;Type-C工業(yè)連接器,以嚴(yán)苛環(huán)境適配性及長(zhǎng)期穩(wěn)定的性能表現(xiàn),成為
    的頭像 發(fā)表于 05-07 18:27 ?679次閱讀
    多模塊配置!YU系列USB、Type-C連接器<b class='flag-5'>為</b>工控機(jī)打造&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;全能型&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;數(shù)據(jù)傳輸方案

    【產(chǎn)品目錄】斯丹麥德電子 | 液位傳感器&amp;amp;浮子

    了解斯丹麥德電子定制液位傳感器&amp;amp;浮子
    發(fā)表于 04-03 16:51