91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

伯克利AI實(shí)驗(yàn)室開(kāi)源圖像編輯模型InstructPix2Pix,簡(jiǎn)化生成圖像編輯并提供一致結(jié)果

jf_WZTOguxH ? 來(lái)源:AI前線 ? 2023-08-28 15:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來(lái)自伯克利人工智能研究(BAIR)實(shí)驗(yàn)室的研究人員開(kāi)源深度學(xué)習(xí)模型 InstructPix2Pix,它可以遵循人類指令來(lái)編輯圖像。InstructPix2Pix 在合成數(shù)據(jù)上進(jìn)行訓(xùn)練,表現(xiàn)優(yōu)于基線 AI 圖像編輯模型。

BAIR 團(tuán)隊(duì)在最近舉行的 2023 年 IEEE/CVF 計(jì)算機(jī)視覺(jué)和模式識(shí)別(CVPR)大會(huì)上展示了他們的工作成果。他們先是生成了一個(gè)合成訓(xùn)練數(shù)據(jù)集,其中的訓(xùn)練樣本是成對(duì)的圖像以及用于將第一幅圖像轉(zhuǎn)換為第二幅圖像的編輯指令。該數(shù)據(jù)集用于訓(xùn)練圖像生成擴(kuò)散模型,該模型可以接受基于文本的指令來(lái)編輯圖像。例如,給定一張騎馬的人的圖片和提示詞“讓她變成騎龍”,它會(huì)輸出原始圖片,但原來(lái)的馬被替換了龍。BAIR 的研究人員的表示:

盡管模型完全是在合成樣本上進(jìn)行訓(xùn)練的,但它實(shí)現(xiàn)了對(duì)任意真實(shí)圖像和人類自然語(yǔ)言指令的零樣本泛化。我們的模型能夠進(jìn)行直觀的圖像編輯,可以遵循人類指令執(zhí)行多種編輯:替換對(duì)象、改變圖像風(fēng)格、修改設(shè)置、藝術(shù)媒介等。

之前的 AI 圖像編輯能力通常是進(jìn)行風(fēng)格轉(zhuǎn)換,流行的文本到圖像生成模型(如 DALL-E 和 Stable Diffusion)也支持圖像到圖像風(fēng)格轉(zhuǎn)換操作。然而,使用這些模型進(jìn)行有針對(duì)性的編輯仍然具有挑戰(zhàn)性。最近,InfoQ 報(bào)道了微軟的 Visual ChatGPT,它可以調(diào)用外部工具來(lái)編輯圖像,前提是提供編輯操作的文本描述。

為了訓(xùn)練 InstructPix2Pix,BAIR 首先創(chuàng)建了一個(gè)合成數(shù)據(jù)集。為此,團(tuán)隊(duì)在一個(gè)由輸入文字說(shuō)明、編輯指令和期望輸出文字說(shuō)明組成的人類文本樣本的小數(shù)據(jù)集上對(duì) GPT-3 進(jìn)行了微調(diào)。然后,這個(gè)微調(diào)模型被給予一個(gè)大型的輸入圖像文字說(shuō)明數(shù)據(jù)集,從中生成了超過(guò) 450k 次編輯和輸出文字說(shuō)明。然后,團(tuán)隊(duì)將輸入和輸出文字說(shuō)明饋送到預(yù)訓(xùn)練的 Prompt-to-Prompt 模型中,該模型根據(jù)文字說(shuō)明生成成對(duì)的相似圖像。

d051acec-4564-11ee-a2ef-92fbcf53809c.jpg

InstructPix2Pix 的架構(gòu),圖片來(lái)源:https://arxiv.org/abs/2211.09800

研究人員鑒于這個(gè)數(shù)據(jù)集訓(xùn)練了基于 Stable Diffusion 的 InstructPix2Pix。為了評(píng)估其性能,團(tuán)隊(duì)將其輸出與基線模型 SDEdit 進(jìn)行了比較。他們使用兩個(gè)指標(biāo)之間的權(quán)衡:一致性(即輸入圖像和編輯后圖像的 CLIP 嵌入之間的余弦相似度)和方向相似性(即編輯后文字說(shuō)明中的變化與編輯后圖像的變化在多大程度上保持一致)。在實(shí)驗(yàn)中,對(duì)于給定的方向相似性值,InstructPix2Pix 產(chǎn)生的圖像比 SDEdit 具有更高的一致性。

人工智能研究員吳恩達(dá)在他的深度學(xué)習(xí)新聞郵件組“The Batch”中評(píng)價(jià)了 InstructPix2Pix:

這項(xiàng)工作簡(jiǎn)化了生成和人造圖像的編輯操作,并提供了更一致的結(jié)果。巧妙地利用現(xiàn)有模型,模型作者能夠使用相對(duì)較少的人類標(biāo)記樣本在新任務(wù)上訓(xùn)練他們的模型。

InstructPix2Pix 的代碼可在 GitHub 上獲取,模型和基于 Web 的演示可在 Huggingface 上訪問(wèn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Web
    Web
    +關(guān)注

    關(guān)注

    2

    文章

    1304

    瀏覽量

    74462
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50095

    瀏覽量

    265311
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3752

    瀏覽量

    52101
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26190

原文標(biāo)題:伯克利 AI 實(shí)驗(yàn)室開(kāi)源圖像編輯模型 InstructPix2Pix,簡(jiǎn)化生成圖像編輯并提供一致結(jié)果

文章出處:【微信號(hào):AI前線,微信公眾號(hào):AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA 推出 Alpamayo 系列開(kāi)源 AI 模型與工具,加速安全可靠的推理型輔助駕駛汽車開(kāi)發(fā)

    的仿真工具和數(shù)據(jù)集。 l Alpamayo 1、AlpaSim 和物理 AI 開(kāi)放數(shù)據(jù)集可為開(kāi)發(fā)具備感知、推理與類人決策能力的車輛提供支持,使開(kāi)發(fā)者能夠進(jìn)行模型調(diào)優(yōu)、蒸餾和測(cè)試,從而提升安全性、魯棒性
    的頭像 發(fā)表于 01-06 09:40 ?379次閱讀
    NVIDIA 推出 Alpamayo 系列<b class='flag-5'>開(kāi)源</b> <b class='flag-5'>AI</b> <b class='flag-5'>模型</b>與工具,加速安全可靠的推理型輔助駕駛汽車開(kāi)發(fā)

    釘釘正式開(kāi)源HarmonyOS圖片編輯組件

    近日,由釘釘團(tuán)隊(duì)自主研發(fā)的“HarmonyOS圖片編輯組件”正式上線OpenHarmony三方庫(kù)中心倉(cāng)并開(kāi)源。作為款填補(bǔ)鴻蒙社區(qū)圖像處理領(lǐng)域空白的重量級(jí)組件,該方案基于Harmony
    的頭像 發(fā)表于 01-05 09:58 ?495次閱讀

    江波龍與華曦達(dá)聯(lián)合創(chuàng)新實(shí)驗(yàn)室揭牌,共建AI存儲(chǔ)創(chuàng)新生態(tài)

    切入點(diǎn),旨在構(gòu)建覆蓋端側(cè)AI設(shè)備與智能家庭場(chǎng)景的技術(shù)驗(yàn)證體系。實(shí)驗(yàn)室秉承開(kāi)源協(xié)作理念,致力于解決存儲(chǔ)與AI終端適配中的關(guān)鍵痛點(diǎn),形成從聯(lián)合調(diào)試、場(chǎng)景驗(yàn)證到可靠性評(píng)估的全流程
    的頭像 發(fā)表于 12-05 13:36 ?1398次閱讀
    江波龍與華曦達(dá)聯(lián)合創(chuàng)新<b class='flag-5'>實(shí)驗(yàn)室</b>揭牌,共建<b class='flag-5'>AI</b>存儲(chǔ)創(chuàng)新生態(tài)

    使用Firebase AI Logic生成圖像模型的兩種新功能

    為您的應(yīng)用添加自定義圖像,能夠顯著改善和個(gè)性化用戶體驗(yàn),有效提高用戶參與度。本文將探討使用 Firebase AI Logic 生成圖像的兩種新功能: 其
    的頭像 發(fā)表于 11-30 09:28 ?425次閱讀

    基于開(kāi)源鴻蒙的圖片編輯開(kāi)發(fā)樣例(2

    本期內(nèi)容介紹基于開(kāi)源鴻蒙在RK3568上開(kāi)發(fā)圖片編輯樣例的全流程,分為上篇和下篇,本篇為下篇,主要介紹標(biāo)記、保存圖片功能。
    的頭像 發(fā)表于 10-31 09:19 ?3208次閱讀
    基于<b class='flag-5'>開(kāi)源</b>鴻蒙的圖片<b class='flag-5'>編輯</b>開(kāi)發(fā)樣例(<b class='flag-5'>2</b>)

    Solidigm 成立AI中央實(shí)驗(yàn)室,配備高性能、大密度存儲(chǔ)測(cè)試集群

    實(shí)驗(yàn)室匯聚AI與存儲(chǔ)專業(yè)技術(shù),為Solidigm合作者提供研究和優(yōu)化存儲(chǔ)對(duì)AI工作負(fù)載影響的平臺(tái)。 2025年10月9日,北京 ——企業(yè)數(shù)據(jù)存儲(chǔ)領(lǐng)域領(lǐng)導(dǎo)者 Solidigm正式揭幕其
    的頭像 發(fā)表于 10-10 17:03 ?779次閱讀

    代超大模型訓(xùn)練引擎XTuner V1開(kāi)源

    9月8日,上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)開(kāi)源書(shū)生大模型代訓(xùn)練引擎XTuner V1。
    的頭像 發(fā)表于 09-10 10:55 ?1134次閱讀

    【Sipeed MaixCAM Pro開(kāi)發(fā)板試用體驗(yàn)】基于MaixCAM-Pro的AI生成圖像鑒別系統(tǒng)

    能夠有效捕捉AI生成圖像與真實(shí)手繪掃描圖像在紋理、筆觸、光影、全局一致性等方面的細(xì)微差異。 邊緣端部署:將
    發(fā)表于 08-21 13:59

    NVIDIA RTX AI加速FLUX.1 Kontext系列圖像模型

    Black Forest Labs,作為全球頂尖 AI 研究實(shí)驗(yàn)室,為圖像生成領(lǐng)域帶來(lái)顛覆性變革。
    的頭像 發(fā)表于 08-05 16:27 ?1229次閱讀
    NVIDIA RTX <b class='flag-5'>AI</b>加速FLUX.1 Kontext系列<b class='flag-5'>圖像</b><b class='flag-5'>模型</b>

    Grameenphone參與愛(ài)立信與AWS Gen-AI實(shí)驗(yàn)室項(xiàng)目

    愛(ài)立信×AWS 「Gen-AI實(shí)驗(yàn)室」旨在推動(dòng)運(yùn)營(yíng)商在OSS/BSS中的AI應(yīng)用突破。通過(guò)結(jié)構(gòu)化、結(jié)果導(dǎo)向的協(xié)作方式,實(shí)驗(yàn)室將愛(ài)立信在OSS
    的頭像 發(fā)表于 07-16 10:49 ?1.6w次閱讀

    利用NVIDIA 3D引導(dǎo)生成AI Blueprint控制圖像生成

    AI 賦能的圖像生成技術(shù)突飛猛進(jìn),從早期模型會(huì)生成手指過(guò)多的人類圖像,到現(xiàn)在能創(chuàng)造出令人驚嘆的逼
    的頭像 發(fā)表于 06-05 09:24 ?891次閱讀

    中軟國(guó)際中標(biāo)啟元實(shí)驗(yàn)室生成平臺(tái)功能模塊建設(shè)開(kāi)發(fā)項(xiàng)目

    近日,中軟國(guó)際成功中標(biāo)“啟元實(shí)驗(yàn)室生成平臺(tái)功能模塊建設(shè)開(kāi)發(fā)項(xiàng)目”。該項(xiàng)目作為啟元實(shí)驗(yàn)室智能化平臺(tái)體系的重要組成部分,主要實(shí)現(xiàn)生成平臺(tái)內(nèi)外部子系統(tǒng)數(shù)據(jù)對(duì)接、模擬數(shù)據(jù)注入,并實(shí)現(xiàn)統(tǒng)
    的頭像 發(fā)表于 05-26 16:43 ?976次閱讀

    Gemini API集成Google圖像生成模型Imagen 3

    開(kāi)發(fā)者現(xiàn)在可以通過(guò) Gemini API 訪問(wèn) Google 最先進(jìn)的圖像生成模型 Imagen 3。該模型最初僅對(duì)付費(fèi)用戶開(kāi)放,不久后也將面向免費(fèi)用戶推出。
    的頭像 發(fā)表于 05-14 16:53 ?1261次閱讀

    實(shí)驗(yàn)室安全管理成焦點(diǎn),漢威科技賦能實(shí)驗(yàn)室安全升級(jí)

    實(shí)驗(yàn)室是國(guó)家科技創(chuàng)新體系的重要組成部分,是國(guó)家組織高水平基礎(chǔ)研究和應(yīng)用基礎(chǔ)研究、聚集和培養(yǎng)優(yōu)秀科學(xué)家、開(kāi)展學(xué)術(shù)交流的重要基地。近年來(lái),各高校、研究院所、科創(chuàng)園區(qū)、高新產(chǎn)業(yè)園區(qū)相關(guān)企業(yè)的實(shí)驗(yàn)室呈現(xiàn)爆發(fā)
    的頭像 發(fā)表于 04-10 10:41 ?915次閱讀
    <b class='flag-5'>實(shí)驗(yàn)室</b>安全管理成焦點(diǎn),漢威科技賦能<b class='flag-5'>實(shí)驗(yàn)室</b>安全升級(jí)

    簡(jiǎn)化樹(shù)莓派文件操作:Picockpit 編輯器應(yīng)用上手體驗(yàn)

    我們激動(dòng)地宣布推出全新的文件編輯器應(yīng)用,讓您能夠在RaspberryPi上遠(yuǎn)程創(chuàng)建和編輯文件和目錄!不僅如此,通過(guò)我們的文件編輯器應(yīng)用,您還能獲得我們的AI系統(tǒng)——RaspiGPT的協(xié)
    的頭像 發(fā)表于 03-25 09:26 ?683次閱讀
    <b class='flag-5'>簡(jiǎn)化</b>樹(shù)莓派文件操作:Picockpit <b class='flag-5'>編輯</b>器應(yīng)用上手體驗(yàn)