91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

生成式 AI 研究通過(guò)引導(dǎo)式圖像結(jié)構(gòu)控制為創(chuàng)作者賦能

NVIDIA英偉達(dá) ? 來(lái)源:未知 ? 2023-07-24 19:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

新的研究正在通過(guò)一個(gè)文本引導(dǎo)的圖像編輯工具來(lái)提升生成式 AI 的創(chuàng)造性潛能。這項(xiàng)創(chuàng)新性的研究提出了一個(gè)使用即插即用擴(kuò)散特征(PnP DFs)的框架,可引導(dǎo)實(shí)現(xiàn)逼真而精確的圖像生成。通過(guò)這項(xiàng)研究,視覺(jué)內(nèi)容創(chuàng)作者只需一張?zhí)崾緢D片和幾個(gè)描述性詞語(yǔ),就能將圖像轉(zhuǎn)化為視覺(jué)內(nèi)容。

可靠輕松編輯并生成內(nèi)容的能力有助于藝術(shù)家、設(shè)計(jì)師和創(chuàng)作者不斷擴(kuò)展創(chuàng)意的可能性。這也將為那些依賴動(dòng)畫、視覺(jué)設(shè)計(jì)和圖像編輯的行業(yè)賦能。

這項(xiàng)研究的首席作者、魏茲曼科學(xué)研究院博士研究生 Narek Tumanyan 表示:“最新的文本到圖像生成模型標(biāo)志著數(shù)字內(nèi)容創(chuàng)作進(jìn)入了一個(gè)新時(shí)代。然而,將它們應(yīng)用于現(xiàn)實(shí)世界的主要挑戰(zhàn)在于缺乏用戶可控性,這在很大程度上局限于‘僅通過(guò)輸入文本來(lái)引導(dǎo)圖像生成’。我們的工作是最早為用戶提供圖像布局控制權(quán)的方法之一。”

生成式 AI 的最新突破為開(kāi)發(fā)強(qiáng)大的文本到圖像模型提供了新方法。然而,復(fù)雜性、模糊性以及對(duì)定制內(nèi)容的需求限制了當(dāng)前渲染技術(shù)的發(fā)展。

這項(xiàng)研究引入了一種新方法,使用 PnP DFs 來(lái)改進(jìn)圖像編輯和生成過(guò)程,使創(chuàng)作者對(duì)最終產(chǎn)物有更大的控制權(quán)。

研究人員從一個(gè)簡(jiǎn)單的問(wèn)題入手:擴(kuò)散模型如何表現(xiàn)并捕捉圖像的形狀或輪廓?研究探索了圖像在生成過(guò)程中不斷演變的內(nèi)部表征,并研究了這些表征如何對(duì)形狀和語(yǔ)義信息進(jìn)行編碼。

這種新方法通過(guò)理解如何在預(yù)訓(xùn)練的文本到圖像模型中編碼空間信息來(lái)控制生成的圖像布局,而無(wú)需訓(xùn)練新的擴(kuò)散模型或?qū)ζ溥M(jìn)行微調(diào)。在生成過(guò)程中,模型從引導(dǎo)圖像中提取擴(kuò)散特征,并將其注入到整個(gè)過(guò)程中的每一個(gè)步驟,從而對(duì)新圖像的結(jié)構(gòu)進(jìn)行精細(xì)控制。

通過(guò)融合這些空間特征,擴(kuò)散模型可以完善新圖像,使其與引導(dǎo)結(jié)構(gòu)相匹配。它會(huì)反復(fù)進(jìn)行此過(guò)程,更新圖像特征,直到生成一張既保留引導(dǎo)圖像布局、又與文本提示相匹配的最終圖像。

作者寫道:“這就產(chǎn)生了一種簡(jiǎn)單而有效的方法,即從引導(dǎo)圖像中提取的特征直接注入到轉(zhuǎn)化圖像的生成過(guò)程中,無(wú)需進(jìn)行訓(xùn)練或微調(diào)?!?/p>

這種方法為更先進(jìn)的可控生成和操作方法鋪平了道路。

視頻. 在 2023 年國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議(CVPR)上展示的“文本驅(qū)動(dòng)的圖像到圖像翻譯的即插即用擴(kuò)散特征”研究概述

研究人員使用 cuDNN 加速的 PyTorch 框架在單個(gè) NVIDIA A100 GPU 上開(kāi)發(fā)并測(cè)試了這個(gè) PNP 模型。該團(tuán)隊(duì)表示,GPU 的大容量使他們能夠?qū)W⒂陂_(kāi)發(fā)方法。作為 NVIDIA 應(yīng)用研究加速器計(jì)劃的參與者,這些研究人員獲得了一塊 A100 GPU。

該框架部署在 A100 上,能夠在大約 50 秒內(nèi)從引導(dǎo)圖像和文本轉(zhuǎn)換為一個(gè)新圖像。

該過(guò)程不僅有高效,而且可靠,能準(zhǔn)確地生成令人驚嘆的圖像。除圖像外,它還適用于轉(zhuǎn)化草圖、繪圖和動(dòng)畫,并能修改照明、色彩和背景。

圖 1.該方法的示例結(jié)果,保留了引導(dǎo)折紙圖像的結(jié)構(gòu),同時(shí)與目標(biāo)提示的描述相匹配(來(lái)源:Tumanyan, Narek 等人/CVPR 2023)

他們的方法還優(yōu)于現(xiàn)有的文本到圖像模型,在保留引導(dǎo)布局和偏離其外觀之間實(shí)現(xiàn)了卓越的平衡。

圖 2.示例結(jié)果,將該模型與 P2P、DiffuseIT、SDedit 和 VQ+CLIP 模型進(jìn)行三種不同噪聲水平的比較(來(lái)源:Tumanyan, Narek 等人/CVPR 2023)

然而,該模型確實(shí)存在一些局限性。當(dāng)編輯任意顏色的圖像區(qū)域時(shí),它的表現(xiàn)并不理想,因?yàn)樵撃P蜔o(wú)法從輸入圖像中提取語(yǔ)義信息。

目前,研究人員正在致力于將這種方法擴(kuò)展到文本引導(dǎo)的視頻編輯中。同時(shí),該研究還證明對(duì)于其他利用擴(kuò)散模型分析圖像內(nèi)部表征的研究也具有重要價(jià)值。

例如,有一項(xiàng)研究正在利用該團(tuán)隊(duì)的研究成果來(lái)改進(jìn)計(jì)算機(jī)視覺(jué)任務(wù),例如語(yǔ)義點(diǎn)對(duì)應(yīng)。另一項(xiàng)研究則專注于擴(kuò)展文本到圖像生成的控制,包括物體的形狀、位置和外觀。

這項(xiàng)研究已在 GitHub 上開(kāi)源。

點(diǎn)擊“閱讀原文”,或掃描下方海報(bào)二維碼,在 8 月 8日聆聽(tīng)NVIDIA 創(chuàng)始人兼 CEO 黃仁勛在 SIGGRAPH 現(xiàn)場(chǎng)發(fā)表的 NVIDIA 主題演講,了解 NVIDIA 的新技術(shù),包括屢獲殊榮的研究,OpenUSD 開(kāi)發(fā),以及最新的 AI 內(nèi)容創(chuàng)作解決方案。


原文標(biāo)題:生成式 AI 研究通過(guò)引導(dǎo)式圖像結(jié)構(gòu)控制為創(chuàng)作者賦能

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4086

    瀏覽量

    99169

原文標(biāo)題:生成式 AI 研究通過(guò)引導(dǎo)式圖像結(jié)構(gòu)控制為創(chuàng)作者賦能

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    生成AI工程師挖掘非結(jié)構(gòu)化數(shù)據(jù)價(jià)值

    您是否知道,生成 AI(GenAI)可以幫助工程師在幾秒鐘內(nèi)診斷汽車故障,甚至在設(shè)備出現(xiàn)問(wèn)題之前預(yù)測(cè)潛在失效?GenAI 正在通過(guò)加速數(shù)據(jù)分析和算法開(kāi)發(fā),讓這些場(chǎng)景從設(shè)想走向現(xiàn)實(shí),使
    的頭像 發(fā)表于 02-28 10:24 ?406次閱讀

    SeaVerse發(fā)布全球首個(gè)AI Native平臺(tái),“All in AI Native”引領(lǐng)AI創(chuàng)作前瞻革命

    2026年1月10日,SeaVerse宣布全球發(fā)布SeaVerse AI平臺(tái)。這是全球首個(gè)AI原生的創(chuàng)建和部署平臺(tái),集合大語(yǔ)言模型、圖像生成、視頻
    的頭像 發(fā)表于 01-14 17:41 ?1229次閱讀

    榜樣領(lǐng)航,共赴新章——2025年度電子發(fā)燒友社區(qū)表彰

    創(chuàng)新,讓分享連接你我。 2025年的斐然成績(jī),離不開(kāi)每一位生態(tài)伙伴的深耕細(xì)作與每一位創(chuàng)作者的熱忱。為此我們特別表彰一批行業(yè)領(lǐng)軍專家、卓越版主、社區(qū)先鋒、評(píng)測(cè)達(dá)人、
    發(fā)表于 01-12 15:21

    嵌入軟件單元測(cè)試中AI自動(dòng)化與人工檢查的協(xié)同機(jī)制研究:基于專業(yè)工具的實(shí)證分析

    ? ?摘要****? 本文系統(tǒng)探討嵌入軟件相較于通用軟件在單元測(cè)試層面的特殊性,分析其對(duì)高覆蓋率、可追溯性與實(shí)時(shí)性驗(yàn)證的嚴(yán)苛需求,并以專業(yè)工具winAMS為技術(shù)載體,深入研究AI驅(qū)動(dòng)的自動(dòng)化測(cè)試在
    發(fā)表于 12-31 11:22

    生成AI虛擬調(diào)試——fe.screen-sim的架構(gòu)價(jià)值

    生成AI虛擬調(diào)試——fe.screen-sim的架構(gòu)價(jià)值
    的頭像 發(fā)表于 12-04 14:59 ?974次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b><b class='flag-5'>賦</b><b class='flag-5'>能</b>虛擬調(diào)試——fe.screen-sim的架構(gòu)價(jià)值

    AI圖像與視頻雙引擎 歐萊雅CCH平臺(tái)升級(jí)領(lǐng)跑美妝智能創(chuàng)作

    了高分答卷。依托圖像與視頻雙引擎,該平臺(tái)致力于實(shí)現(xiàn)品牌多樣化素材的集中化管理,并持續(xù)推動(dòng)工作流程向極致高效與無(wú)縫協(xié)作的方向發(fā)展, 標(biāo)志著平臺(tái)正式邁入AI智能驅(qū)動(dòng)的
    的頭像 發(fā)表于 11-21 17:48 ?1351次閱讀

    全球首個(gè)動(dòng)漫專屬AI視頻生成平臺(tái)Animon,國(guó)內(nèi)版&quot;萌動(dòng)AI&quot;正式發(fā)布

    平臺(tái)Animon正式推出國(guó)內(nèi)版產(chǎn)品——"萌動(dòng)AI",為數(shù)億創(chuàng)作者帶來(lái)視覺(jué)革命。該平臺(tái)由專業(yè)的動(dòng)漫制作團(tuán)隊(duì)和頂尖的AI技術(shù)團(tuán)隊(duì)聯(lián)合打造,并將專為專業(yè)創(chuàng)作團(tuán)隊(duì)和個(gè)人工作室設(shè)計(jì)的Animon
    的頭像 發(fā)表于 09-25 12:33 ?956次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用

    是一種快速反應(yīng)能力,是直接的感知;靈感是一種通過(guò)思考和探索獲得的創(chuàng)造性想法,是一種創(chuàng)意。 AI怎么模擬直覺(jué)與靈感呢?四、AI代替人類的假說(shuō) 這可能嗎? 用機(jī)器來(lái)生成假說(shuō): 1、直接
    發(fā)表于 09-17 11:45

    智能體化AI生成AI的區(qū)別

    生成 AI 的核心是“生成內(nèi)容” —— 比如用大模型寫報(bào)告,是對(duì)輸入指令的被動(dòng)響應(yīng)。而智能體化 AI(Agentic
    的頭像 發(fā)表于 08-25 17:24 ?1626次閱讀

    生成 AI 重塑自動(dòng)駕駛仿真:4D 場(chǎng)景生成技術(shù)的突破與實(shí)踐

    生成AI驅(qū)動(dòng)的4D場(chǎng)景技術(shù)正解決傳統(tǒng)方法效率低、覆蓋不足等痛點(diǎn),如何通過(guò)NeRF、3D高斯?jié)姙R等技術(shù)實(shí)現(xiàn)高保真動(dòng)態(tài)建模?高效生成極端天氣等
    的頭像 發(fā)表于 08-06 11:20 ?5144次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>式</b> <b class='flag-5'>AI</b> 重塑自動(dòng)駕駛仿真:4D 場(chǎng)景<b class='flag-5'>生成</b>技術(shù)的突破與實(shí)踐

    復(fù)星醫(yī)藥使用亞馬遜云科技生成AI技術(shù)醫(yī)療撰寫場(chǎng)景 助力科學(xué)家效率躍升

    北京 ——2025 年 7 月 14 日 近日,全球知名的醫(yī)藥公司復(fù)星醫(yī)藥宣布使用亞馬遜云科技的生成AI技術(shù)和智能醫(yī)學(xué)內(nèi)容生成中心
    發(fā)表于 07-14 14:16 ?1125次閱讀

    邊緣生成AI面臨哪些工程挑戰(zhàn)?

    本文由TechSugar編譯自electronicdesign當(dāng)大多數(shù)人想到人工智能(AI)時(shí),他們通常想到的是能夠生成新文本、圖像或語(yǔ)音內(nèi)容的應(yīng)用。像ChatGPT這樣流行的文本應(yīng)
    的頭像 發(fā)表于 06-25 10:44 ?1145次閱讀
    邊緣<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>面臨哪些工程挑戰(zhàn)?

    利用NVIDIA 3D引導(dǎo)生成AI Blueprint控制圖像生成

    AI 圖像生成技術(shù)突飛猛進(jìn),從早期模型會(huì)生成手指過(guò)多的人類
    的頭像 發(fā)表于 06-05 09:24 ?890次閱讀

    生成人工智能認(rèn)證:重構(gòu)AI時(shí)代的人才培養(yǎng)與職業(yè)躍遷路徑

    ,恰似一座連接技術(shù)前沿與個(gè)體成長(zhǎng)的橋梁,既承載著時(shí)代對(duì)人才的迫切需求,也指向著未來(lái)職場(chǎng)的核心競(jìng)爭(zhēng)力。 一、技術(shù)革命的雙重性:能與失衡并存 生成人工智能的突破性,在于其首次讓機(jī)器具備了“無(wú)中生有”的創(chuàng)造力。從文本
    的頭像 發(fā)表于 05-23 09:29 ?848次閱讀

    《工業(yè)4.0新基建:RK3588核心板如何智能制造全鏈路》

    ”。 典型應(yīng)用案例: 柔性生產(chǎn)線控制通過(guò)PCIe接口連接機(jī)械臂控制器,實(shí)時(shí)解析視覺(jué)引導(dǎo)數(shù)據(jù),實(shí)現(xiàn)±0.1mm精度定位,支持產(chǎn)線快速換型。 預(yù)測(cè)性維護(hù)系統(tǒng):整合振動(dòng)傳感器與溫度數(shù)據(jù)
    發(fā)表于 04-08 16:08