日本黄色网页大全,亚洲一级全黄片子欧美三级

來(lái)自伯克利人工智能研究（BAIR）實(shí)驗(yàn)室的研究人員開(kāi)源深度學(xué)習(xí)模型 InstructPix2Pix，它可以遵循人類指令來(lái)編輯圖像。InstructPix2Pix 在合成數(shù)據(jù)上進(jìn)行訓(xùn)練，表現(xiàn)優(yōu)于基線 AI 圖像編輯模型。

BAIR 團(tuán)隊(duì)在最近舉行的 2023 年 IEEE/CVF 計(jì)算機(jī)視覺(jué)和模式識(shí)別（CVPR）大會(huì)上展示了他們的工作成果。他們先是生成了一個(gè)合成訓(xùn)練數(shù)據(jù)集，其中的訓(xùn)練樣本是成對(duì)的圖像以及用于將第一幅圖像轉(zhuǎn)換為第二幅圖像的編輯指令。該數(shù)據(jù)集用于訓(xùn)練圖像生成擴(kuò)散模型，該模型可以接受基于文本的指令來(lái)編輯圖像。例如，給定一張騎馬的人的圖片和提示詞“讓她變成騎龍”，它會(huì)輸出原始圖片，但原來(lái)的馬被替換了龍。BAIR 的研究人員的表示：

盡管模型完全是在合成樣本上進(jìn)行訓(xùn)練的，但它實(shí)現(xiàn)了對(duì)任意真實(shí)圖像和人類自然語(yǔ)言指令的零樣本泛化。我們的模型能夠進(jìn)行直觀的圖像編輯，可以遵循人類指令執(zhí)行多種編輯：替換對(duì)象、改變圖像風(fēng)格、修改設(shè)置、藝術(shù)媒介等。

之前的 AI 圖像編輯能力通常是進(jìn)行風(fēng)格轉(zhuǎn)換，流行的文本到圖像生成模型（如 DALL-E 和 Stable Diffusion）也支持圖像到圖像風(fēng)格轉(zhuǎn)換操作。然而，使用這些模型進(jìn)行有針對(duì)性的編輯仍然具有挑戰(zhàn)性。最近，InfoQ 報(bào)道了微軟的 Visual ChatGPT，它可以調(diào)用外部工具來(lái)編輯圖像，前提是提供編輯操作的文本描述。

為了訓(xùn)練 InstructPix2Pix，BAIR 首先創(chuàng)建了一個(gè)合成數(shù)據(jù)集。為此，團(tuán)隊(duì)在一個(gè)由輸入文字說(shuō)明、編輯指令和期望輸出文字說(shuō)明組成的人類文本樣本的小數(shù)據(jù)集上對(duì) GPT-3 進(jìn)行了微調(diào)。然后，這個(gè)微調(diào)模型被給予一個(gè)大型的輸入圖像文字說(shuō)明數(shù)據(jù)集，從中生成了超過(guò) 450k 次編輯和輸出文字說(shuō)明。然后，團(tuán)隊(duì)將輸入和輸出文字說(shuō)明饋送到預(yù)訓(xùn)練的 Prompt-to-Prompt 模型中，該模型根據(jù)文字說(shuō)明生成成對(duì)的相似圖像。

InstructPix2Pix 的架構(gòu)，圖片來(lái)源：https://arxiv.org/abs/2211.09800

研究人員鑒于這個(gè)數(shù)據(jù)集訓(xùn)練了基于 Stable Diffusion 的 InstructPix2Pix。為了評(píng)估其性能，團(tuán)隊(duì)將其輸出與基線模型 SDEdit 進(jìn)行了比較。他們使用兩個(gè)指標(biāo)之間的權(quán)衡：一致性（即輸入圖像和編輯后圖像的 CLIP 嵌入之間的余弦相似度）和方向相似性（即編輯后文字說(shuō)明中的變化與編輯后圖像的變化在多大程度上保持一致）。在實(shí)驗(yàn)中，對(duì)于給定的方向相似性值，InstructPix2Pix 產(chǎn)生的圖像比 SDEdit 具有更高的一致性。

人工智能研究員吳恩達(dá)在他的深度學(xué)習(xí)新聞郵件組“The Batch”中評(píng)價(jià)了 InstructPix2Pix：

這項(xiàng)工作簡(jiǎn)化了生成和人造圖像的編輯操作，并提供了更一致的結(jié)果。巧妙地利用現(xiàn)有模型，模型作者能夠使用相對(duì)較少的人類標(biāo)記樣本在新任務(wù)上訓(xùn)練他們的模型。

InstructPix2Pix 的代碼可在 GitHub 上獲取，模型和基于 Web 的演示可在 Huggingface 上訪問(wèn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴