91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種基于new concepts的text-to-image生成模型的fine-tuning方法

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-01-03 17:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2. 引言

最近通過文本生成圖像的深度學(xué)習(xí)相關(guān)技術(shù)取得了非常大的進(jìn)展,2021已經(jīng)成為了圖像生成的一個(gè)新的milestone,諸如DALL-E和Stable diffusion這種模型都取得了長(zhǎng)足的進(jìn)步,甚至達(dá)到了“出圈”的效果。通過簡(jiǎn)單文本prompts,用戶能夠生成前所未有的質(zhì)量的圖像。這樣的模型可以生成各種各樣的對(duì)象、風(fēng)格和場(chǎng)景,并把它們進(jìn)行組合排序,這讓現(xiàn)有的圖像生成模型看上去是無所不能的。

b809bb20-88d1-11ed-bfe3-dac502259ad0.png

但是,盡管這些模型具有多樣性和一些泛化能力,用戶經(jīng)常希望從他們自己的生活中合成特定的概念。例如,親人、朋友、寵物或個(gè)人物品和地點(diǎn),這些都是非常有意義的concept,也和個(gè)人對(duì)于生成圖像的信息有對(duì)齊。由于這些概念天生就是個(gè)人的,因此在大規(guī)模的模型訓(xùn)練過程中很難出現(xiàn)。

事后通過詳細(xì)的文字,來描述這種概念是非常不方便的,也無法保留足夠多的視覺細(xì)節(jié)來生成新的personal的concepts。這就需要模型具有一定的“定制”能力。也就是說如果給定少量用戶提供的圖像,我們能否用新概念(例如寵物狗或者“月亮門”,如圖所示)增強(qiáng)現(xiàn)有的文本到圖像擴(kuò)散模型?經(jīng)過微調(diào)的模型應(yīng)該能夠?qū)⑺鼈兣c現(xiàn)有概念進(jìn)行概括并生成新的變化。這帶來了幾個(gè)比較嚴(yán)峻的挑戰(zhàn):

首先,模型傾向于遺忘現(xiàn)有概念的含義:例如,在添加“moon gate”這一concept的時(shí)候,“moon”的含義就會(huì)丟失。

其次,由于stable diffusion這樣的網(wǎng)絡(luò)往往參數(shù)會(huì)超級(jí)多,所以在小數(shù)據(jù)上訓(xùn)練模型,容易造成對(duì)訓(xùn)練樣本進(jìn)行過擬合,而且采樣中變化也有限。

此外,論文還關(guān)注了一個(gè)更具挑戰(zhàn)性的問題,即組group fine-tuning,即能夠超越單個(gè)個(gè)體concept的微調(diào),并將多個(gè)概念組合在一起。學(xué)習(xí)多個(gè)新的concepts同時(shí)也是存在一定的挑戰(zhàn)的,比如 concept mixing以及concept omission。

在這項(xiàng)工作中,論文提出了一種fine-tuning技術(shù),即文本到圖像擴(kuò)散模型的“定制擴(kuò)散”。我們的方法在計(jì)算和內(nèi)存方面都很有效。為了克服上述挑戰(zhàn),新方法固定一小部分模型權(quán)重,即文本到潛在特征的key值映射在cross-attention layer中。fine-tuning這些足以更新模型的新concepts。

為了防止模型喪失原來強(qiáng)大的表征能力,新方法僅僅使用一小組的圖像與目標(biāo)圖像類似的真實(shí)圖像進(jìn)行訓(xùn)練。我們還在微調(diào)期間引入data的augamation,這可以讓模型更快的收斂,并獲得更好的結(jié)果。論文提出的方法實(shí)驗(yàn)是構(gòu)建在Stable Diffusion之上,并對(duì)各種數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),其中最少有四幅訓(xùn)練圖像。

對(duì)于添加單個(gè)concept,新提出的方法顯示出比相似任務(wù)的作品和基線更好的文本對(duì)齊和視覺相似性。更重要的是,我們的方法可以有效地組成多個(gè)新concepts,而直接對(duì)不同的concepts進(jìn)行組合的方法則遇到困難,經(jīng)常會(huì)省略一個(gè)。最后,我們的方法只需要存儲(chǔ)一小部分參數(shù)(模型權(quán)重的3%),消耗的GPU memory非常有限,同時(shí)也減少了fine-tuning的時(shí)間。

3. 方法

總結(jié)來講,論文提出的方法,就是僅更新權(quán)重的一小部分,即模型的交叉注意力層。此外,由于目標(biāo)概念的訓(xùn)練樣本很少,所以使用一個(gè)真實(shí)圖像的正則化集,以防止過擬合。

b818b53a-88d1-11ed-bfe3-dac502259ad0.png

對(duì)于Single-Concept Fine-tuning,給定一個(gè)預(yù)訓(xùn)練的text-to-image diffusion model,我們的目標(biāo)是在模型中加入一個(gè)新的concept,只要給定四張圖像和相應(yīng)的文本描述進(jìn)行訓(xùn)練。fine-tuning后的模型應(yīng)保留其先驗(yàn)知識(shí),允許根據(jù)文本提示使用新概念生成新的圖像類型。

這可能具有挑戰(zhàn)性,因?yàn)楦碌奈谋镜綀D像的映射可能很容易過擬合少數(shù)可用圖像。所以保證泛化性就非常有必要,也比較有挑戰(zhàn)。所以就僅僅fine-tuning新的K和V,而對(duì)于query,則保持不變,這樣就可以增加新概念的同時(shí),保證模型的表征能力不受到太多的影響。優(yōu)化目標(biāo)還是diffusion的形式:

b822694a-88d1-11ed-bfe3-dac502259ad0.png

概括起來實(shí)際上非常簡(jiǎn)單,就是訓(xùn)練一個(gè)k和v的矩陣,來擴(kuò)充維度,增加模型的表征能力,使其能生成更為豐富的圖像內(nèi)容。

b82ab6d6-88d1-11ed-bfe3-dac502259ad0.png

而對(duì)于Multiple-Concept Compositional Fine-tuning,為了對(duì)多個(gè)概念進(jìn)行微調(diào),我們將每個(gè)概念的訓(xùn)練數(shù)據(jù)集合并,并使用我們的方法將它們聯(lián)合訓(xùn)練。為了表示目標(biāo)概念,我們使用不同的修飾符的,并將它們與每個(gè)層的交叉注意關(guān)鍵和值矩陣一起初始化,并優(yōu)化它們。通過將權(quán)重更新限制為交叉注意key和value參數(shù),與DreamBooth等方法相比,可以顯著更好地將兩個(gè)概念合并在一起。

poYBAGOz8RaAaMMYAAFDj5Ag_TQ303.jpg

b8327024-88d1-11ed-bfe3-dac502259ad0.png

可以發(fā)現(xiàn),增加約束還是讓模型具有更強(qiáng)的表征能力的。最下面一行才和真正的門比較相似,同時(shí)生成的月亮也非常合理。

4. 實(shí)驗(yàn)

b844a622-88d1-11ed-bfe3-dac502259ad0.png

給定一個(gè)新concepts的圖像如左側(cè)顯示的目標(biāo)圖像,提出的方法可以在看不見的上下文和藝術(shù)風(fēng)格中生成帶有該概念的圖像。

第一行:代表水彩畫藝術(shù)風(fēng)格中的概念。方法還可以在背景中生成山脈,而 DreamBooth 和 Textual Inversion 忽略了這一點(diǎn)。

第二行:改變背景場(chǎng)景。我們的方法和 DreamBooth 的表現(xiàn)與 Textual Inversion 相似且更好。

第三行:添加另一個(gè)對(duì)象,例如帶有目標(biāo)桌子的橙色沙發(fā)。新的方法成功地添加了另一個(gè)對(duì)象。第四行:改變對(duì)象屬性,如花瓣的顏色。第五行:用太陽鏡裝飾私人寵物貓。我們的方法比基線更好地保留了視覺相似性,同時(shí)僅更改花瓣顏色或?yàn)樨執(zhí)砑犹栫R。

b86279e0-88d1-11ed-bfe3-dac502259ad0.png

可以發(fā)現(xiàn)Multiple-Concept Compositional Fine-tuning的效果也非常驚艷。

b87509c0-88d1-11ed-bfe3-dac502259ad0.png

風(fēng)格遷移的效果也不錯(cuò)。

定量指標(biāo)也有比較有競(jìng)爭(zhēng)力的表現(xiàn):

b8809b96-88d1-11ed-bfe3-dac502259ad0.png

5. 結(jié)論

論文提出了一種基于new concepts的text-to-image生成模型的fine-tuning方法。只需使用一些有限的圖像示例, 新方法就能一高效的方法生成微調(diào)概念的新樣本同時(shí)保留原有的生成能力。而且,我們只需要保存一小部分模型權(quán)重。此外,方法可以連貫地在同一場(chǎng)景中組合多個(gè)新概念,這是之前的方法所缺少的能力。







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5196

    瀏覽量

    135505

原文標(biāo)題:如何簡(jiǎn)單高效地定制自己的文本作畫模型?

文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用Firebase AI Logic生成圖像模型的兩新功能

    為您的應(yīng)用添加自定義圖像,能夠顯著改善和個(gè)性化用戶體驗(yàn),有效提高用戶參與度。本文將探討使用 Firebase AI Logic 生成圖像的兩新功能: 其是 Imagen 專屬編輯功能預(yù)覽版;其二
    的頭像 發(fā)表于 11-30 09:28 ?431次閱讀

    【CIE全國RISC-V創(chuàng)新應(yīng)用大賽】+ 一種基于LLM的可通過圖像語音控制的元件庫管理工具

    一種基于LLM的可通過圖像語音控制的元件庫管理工具 項(xiàng)目概述 ? 庫存管理在我們的生活中幾乎無處不在,在許多小型的庫存當(dāng)中,比如實(shí)驗(yàn)室中的庫存管理,往往沒有人去專職維護(hù),這就會(huì)導(dǎo)致在日積月累中逐漸
    發(fā)表于 11-12 19:32

    拼多多商品推廣鏈接生成API:社交裂變的轉(zhuǎn)化追蹤利器

    功能解析 專屬鏈接生成 通過API接口,開發(fā)者可動(dòng)態(tài)生成攜帶 唯追蹤參數(shù) 的推廣鏈接 支持自定義參數(shù):活動(dòng)ID、推廣渠道、用戶身份標(biāo)識(shí) 多級(jí)傳播追蹤 采用樹形追蹤模型: $$ beg
    的頭像 發(fā)表于 09-08 16:22 ?758次閱讀
    拼多多商品推廣鏈接<b class='flag-5'>生成</b>API:社交裂變的轉(zhuǎn)化追蹤利器

    上??匕玻夯?b class='flag-5'>模型的測(cè)試用例生成

    的測(cè)試用例生成(Model-Based Test Case Generation)作為一種新興且高效的測(cè)試方法,正逐漸成為解決這問題的重要手段。 01 引 言 在傳統(tǒng)的軟件測(cè)試過程中
    的頭像 發(fā)表于 08-28 14:30 ?856次閱讀
    上??匕玻夯?b class='flag-5'>模型</b>的測(cè)試用例<b class='flag-5'>生成</b>

    Text2SQL準(zhǔn)確率暴漲22.6%!3大維度全拆

    基于 BIRD 數(shù)據(jù)集展開。 方法:提出 J-Schema 呈現(xiàn)數(shù)據(jù)庫結(jié)構(gòu)并合理提供示例值,結(jié)合思維鏈引導(dǎo)模型推理。采用 Iterative DPO 迭代訓(xùn)練,多輪迭代提升性能。用自洽性方法,通過硬 / 軟投票從多個(gè)候選答案中選
    的頭像 發(fā)表于 08-14 11:17 ?710次閱讀
    <b class='flag-5'>Text</b>2SQL準(zhǔn)確率暴漲22.6%!3大維度全拆

    一種新的無刷直流電機(jī)反電動(dòng)勢(shì)檢測(cè)方法

    無位置傳感器無刷直流電機(jī)的控制算法是近年來研究的熱點(diǎn)之,有霍爾位置信號(hào)直流電機(jī)根據(jù)霍爾狀態(tài)來確定通斷功率器件。利用無刷直流電機(jī)的數(shù)學(xué)模型,根據(jù)反電動(dòng)勢(shì)檢測(cè)原理,提出了一種新的線反電動(dòng)勢(shì)檢測(cè)
    發(fā)表于 08-07 14:29

    一種新的無刷直流電機(jī)反電動(dòng)勢(shì)檢測(cè)方法

    無位置傳感器無刷直流電機(jī)的控制算法是近年來研究的熱點(diǎn)之,有霍爾位置信號(hào)直流電機(jī)根據(jù)霍爾狀態(tài)來確定通斷功率器件。利用無刷直流電機(jī)的數(shù)學(xué)模型,根據(jù)反電動(dòng)勢(shì)檢測(cè)原理,提出了一種新的線反電動(dòng)勢(shì)檢測(cè)
    發(fā)表于 08-04 14:59

    Hyperabrupt Junction Tuning 變?nèi)荻O管 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()Hyperabrupt Junction Tuning 變?nèi)荻O管相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有Hyperabrupt Junction Tuning 變?nèi)荻O管的引腳圖
    發(fā)表于 07-10 18:32
    Hyperabrupt Junction <b class='flag-5'>Tuning</b> 變?nèi)荻O管 skyworksinc

    Hyperabrupt Junction Tuning Varactor skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()Hyperabrupt Junction Tuning Varactor相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有Hyperabrupt Junction Tuning Varactor
    發(fā)表于 07-09 18:34
    Hyperabrupt Junction <b class='flag-5'>Tuning</b> Varactor skyworksinc

    一種基于擴(kuò)散模型的視頻生成框架RoboTransfer

    在機(jī)器人操作領(lǐng)域,模仿學(xué)習(xí)是推動(dòng)具身智能發(fā)展的關(guān)鍵路徑,但高度依賴大規(guī)模、高質(zhì)量的真實(shí)演示數(shù)據(jù),面臨高昂采集成本與效率瓶頸。仿真器雖提供了低成本數(shù)據(jù)生成方案,但顯著的“模擬到現(xiàn)實(shí)”(Sim2Real)鴻溝,制約了仿真數(shù)據(jù)訓(xùn)練策略的泛化能力與落地應(yīng)用。
    的頭像 發(fā)表于 07-09 14:02 ?836次閱讀
    <b class='flag-5'>一種</b>基于擴(kuò)散<b class='flag-5'>模型</b>的視頻<b class='flag-5'>生成</b>框架RoboTransfer

    模型推理顯存和計(jì)算量估計(jì)方法研究

    (如全連接層、卷積層等)確定所需的顯存大??; (3)將各層顯存大小相加,得到模型總的顯存需求。 基于神經(jīng)網(wǎng)絡(luò)剪枝的顯存估計(jì) 神經(jīng)網(wǎng)絡(luò)剪枝是一種減少模型參數(shù)數(shù)量的技術(shù),可以降低顯存需求。通過剪枝,可以
    發(fā)表于 07-03 19:43

    關(guān)于鴻蒙App上架中“AI文本生成模塊的資質(zhì)證明文件”的情況說明

    檢查結(jié)果為“通過”或?qū)徍藸顟B(tài)為“審核通過”。 那么對(duì)于這個(gè)問題,我也是嘗試去解決……這里分享下我了解到的情況和方法 首先,這個(gè)政策雖然說是針對(duì)AI文本生成模塊,但實(shí)際上,針對(duì)的是所有調(diào)用了AI大
    發(fā)表于 06-30 18:37

    一種多模態(tài)駕駛場(chǎng)景生成框架UMGen介紹

    端到端自動(dòng)駕駛技術(shù)的快速發(fā)展對(duì)閉環(huán)仿真器提出了迫切需求,而生成模型為其提供了一種有效的技術(shù)架構(gòu)。然而,現(xiàn)有的駕駛場(chǎng)景生成方法大多側(cè)重于圖像模態(tài),忽略了其他關(guān)鍵模態(tài)的建模,如地圖信息、
    的頭像 發(fā)表于 03-24 15:57 ?1691次閱讀
    <b class='flag-5'>一種</b>多模態(tài)駕駛場(chǎng)景<b class='flag-5'>生成</b>框架UMGen介紹

    一種基于基礎(chǔ)模型對(duì)齊的自監(jiān)督三維空間理解方法

    三維空間理解是推動(dòng)自動(dòng)駕駛、具身智能等領(lǐng)域中智能系統(tǒng)實(shí)現(xiàn)環(huán)境感知、交互的核心任務(wù),其中3D語義占據(jù)預(yù)測(cè) (Semantic Occupancy Prediction) 對(duì)三維場(chǎng)景進(jìn)行精準(zhǔn)的體素級(jí)建模。然而,當(dāng)前主流方法嚴(yán)重依賴大規(guī)模標(biāo)注數(shù)據(jù),制約了模型的可擴(kuò)展性和泛化能力
    的頭像 發(fā)表于 03-18 15:01 ?982次閱讀
    <b class='flag-5'>一種</b>基于基礎(chǔ)<b class='flag-5'>模型</b>對(duì)齊的自監(jiān)督三維空間理解<b class='flag-5'>方法</b>

    ?Diffusion生成式動(dòng)作引擎技術(shù)解析

    Diffusion生成式動(dòng)作引擎 Diffusion生成式動(dòng)作引擎是一種基于擴(kuò)散模型(Diffusion Models)的生成式人工智能技術(shù)
    的頭像 發(fā)表于 03-17 15:14 ?3069次閱讀