91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NüWA多模態(tài)模型支持八大視覺生成與編輯任務

微軟科技 ? 來源:微軟科技 ? 作者:微軟科技 ? 2022-03-11 09:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

小編說:“自然語言”正在越來越經(jīng)常地出現(xiàn)在我們的日常生活中。你有沒有想象過,我們有一天可以使用自然語言對視覺內容進行編輯?微軟亞洲研究院最新推出的多模態(tài)模型 NüWA,不僅讓視覺內容創(chuàng)造多了一條路,甚至還讓 Windows 經(jīng)典桌面有了更多的打開方式。人類對于信息的感知有五種途徑,包括視覺、聽覺、嗅覺、觸覺和味覺,其中視覺是接受信息的最主要渠道,也是創(chuàng)造力的源泉。在推動人工智能發(fā)展的道路上,計算機視覺已經(jīng)成為一個重要的研究領域,尤其是近幾年視覺創(chuàng)作類應用的頻繁涌現(xiàn),讓創(chuàng)作變得越來越便捷,越來越多的用戶可以用這些工具制作和分享身邊的美好生活。與此同時,視覺類應用的廣泛使用也促進了計算機視覺領域的研究。

然而,盡管這些工具功能強大,但仍有不足之處:其一,它們需要創(chuàng)作者手動收集和處理視覺素材,導致現(xiàn)有的大規(guī)模視覺數(shù)據(jù)中所包含的視覺知識無法自動地有效利用。其二,這些工具往往是通過圖形界面與創(chuàng)作者交互,并非自然語言指令,因此對于一些用戶來說,具有一定的技術門檻,他們需要擁有豐富的使用經(jīng)驗。在微軟亞洲研究院看來,下一代可視化內容創(chuàng)建工具應該能夠利用大數(shù)據(jù)、AI 模型幫助用戶更便捷地進行內容創(chuàng)作,并使用自然語言作為更加友好的交互界面。

在這樣的理念下,微軟亞洲研究院在視頻生成預訓練模型的基礎上進行再創(chuàng)新,開發(fā)了多模態(tài)的 NüWA(Neural visUal World creAtion)模型。通過自然語言指令,NüWA 可以實現(xiàn)文本、圖像、視頻之間的生成、轉換和編輯,幫助視覺內容創(chuàng)作者降低技術門檻,提高創(chuàng)造力。同時,開發(fā)者也可以利用 NüWA 構建基于 AI 的視覺內容創(chuàng)造平臺。

支持八大視覺生成與編輯任務

NüWA 目前支持八大視覺生成和編輯任務。其中,支持圖像的四類任務包括:文本到圖像,草圖到圖像,圖像補全,圖像編輯;支持視頻的四類任務包括:文本到視頻,視頻草圖到視頻,視頻預測,視頻編輯。下面,讓我們以 Windows 經(jīng)典桌面為例,試一下 NüWA 的幾個功能。

給定一張原始圖片;

讓 NüWA 將圖片補全為256x256(圖像補全);

讓 NüWA 在圖片的紅框位置處添加“一匹在草地上行走的馬”(圖像編輯);

讓 NüWA 將這張圖片生成為一個能“動”起來的視頻(視頻預測)。

NüWA-LIP:讓視覺編輯更精細

NüWA 模型已基本包含了視覺創(chuàng)作的核心流程,可在一定程度上輔助創(chuàng)作者提升效率,但在實際創(chuàng)作中,創(chuàng)作者還有很多多樣且高質量的需求。為此,微軟亞洲研究院的研究員們在 NüWA 的基礎之上更新迭代,于近日提出了 NüWA-LIP 模型,并且在視覺領域的典型任務——缺陷圖像修復中取得了新突破。盡管此前也有方法完成了類似的圖像修復,但是模型的創(chuàng)作卻比較隨意,無法符合創(chuàng)作者的意愿,而 NüWA LIP 幾乎可以按照給定的自然語言指令修復、補全成人們肉眼可接受的圖像。下面,讓我們直觀感受一下 NüWA-LIP 神奇的圖像修復效果。圖2給出了兩個例子。第一個例子是希望模型可以按照“Racers riding four wheelers while a crowd watches”(一群人在看摩托車手騎四輪車)來補全黑色區(qū)域。已有工作 GLIDE 雖然可以補全,但是可以看到邊界處有明顯的白線,并且補全的區(qū)域比較模糊。NüWA 模型使用自回歸的方式從左到右依次掃描生成,邊界處相比于 GLIDE 更加自然。但是由于在補全黑色區(qū)域時看不到右側的車輪,因此標準的 NüWA 模型存在補全邊界銜接不對的問題。NüWA-LIP 修復了 NüWA 這一不足,它會提前預看整個圖像,并創(chuàng)新地使用無損編碼技術,然后再自回歸地生成,因此可以做到黑色區(qū)域邊界處銜接自然,并且補全區(qū)域也很清晰。

NüWA-Infinity:讓視覺創(chuàng)作趨于 “無限流”

除了圖像修復之外,微軟亞洲研究院在高分辨率、大圖像的橫向延展方面也進行了持續(xù)研究,提出了 NüWA Infinity 模型。顧名思義,NüWA Infinity 可以根據(jù)給定的圖像生成無限連續(xù)的高清“大片”?!耙婚_始 NüWA 能夠生成、編輯的圖像和視頻的分辨率相對較低,一般是256×256分辨率的小圖。我們希望通過模型可以生成更高清的大圖,形成更大的視覺沖擊,滿足不同創(chuàng)作者的實際需求。簡單來說,NüWA Infinity 會根據(jù)圖像的不同層次內容掃描每一幀窗口,不斷渲染形成高像素、連續(xù)的大圖,”微軟亞洲研究院研究員吳晨飛介紹說。想知道 Windows 經(jīng)典桌面的右側是什么樣么?點擊下圖,NüWA-Infinity 為你“揭開”神秘面紗。

段楠補充說,“表面看 NüWA Infinity 解決了之前 NüWA 生成圖片不高清,以及視頻幀數(shù)有限的問題。但其實 NüWA Infinity 從底層形成了一套生成機制,不僅可以對圖片進行延展式的生成,也可以應用于視頻預測創(chuàng)作,而這也是我們接下來要攻克的研究課題?!?/p>

自此,NüWA-LIP 讓機器接受語言指令自動修圖成為了可能,而 NüWA-Infinity 則使得圖像生成質量向高清、無限的真實世界邁進了一大步。按照這樣的迭代創(chuàng)新步伐,未來創(chuàng)作者擁有一套趨于“無限流”的視覺創(chuàng)作輔助工具,指日可待。

段楠補充說,“表面看 NüWA Infinity 解決了之前 NüWA 生成圖片不高清,以及視頻幀數(shù)有限的問題。但其實 NüWA Infinity 從底層形成了一套生成機制,不僅可以對圖片進行延展式的生成,也可以應用于視頻預測創(chuàng)作,而這也是我們接下來要攻克的研究課題?!?/p>

自此,NüWA-LIP 讓機器接受語言指令自動修圖成為了可能,而 NüWA-Infinity 則使得圖像生成質量向高清、無限的真實世界邁進了一大步。按照這樣的迭代創(chuàng)新步伐,未來創(chuàng)作者擁有一套趨于“無限流”的視覺創(chuàng)作輔助工具,指日可待。

NüWA 在八大任務中的效果

NüWA 多模態(tài)模型連鎖反應:或將帶來更多“殺手級”應用

微軟亞洲研究院高級研究員段楠表示,“NüWA 是第一個多模態(tài)預訓練模型。我們希望 NüWA 可以實現(xiàn)真實世界的視頻生成,但在訓練過程中模型會產(chǎn)生大量的‘中間變量’,消耗巨大的顯存、計算等資源。因此,NüWA 團隊與系統(tǒng)組的同事們聯(lián)手協(xié)作,為 NüWA 在系統(tǒng)架構上設置了多種并行機制,如張量并行、管道并行和數(shù)據(jù)并行,使得我們的跨模態(tài)訓練成為可能。”

未來,隨著人工智能技術的發(fā)展,增強現(xiàn)實、虛擬現(xiàn)實等沉浸式的人機交互界面將會得到更廣泛的應用,數(shù)字世界和物理世界的結合也將越來越緊密。而不同類型的多模態(tài)內容則是拉近虛擬空間與現(xiàn)實世界的強力膠,因此,虛擬內容的創(chuàng)建、編輯和交互將至關重要。NüWA 提供的視覺內容生成和編輯技術,為這些應用提供了無限的想象空間。當多模態(tài)技術成為未來人工智能應用發(fā)展的方向時,多模態(tài)模型將會為學習、廣告、新聞、會議、娛樂、社交網(wǎng)絡、數(shù)字人、腦機交互等領域帶來更多的下一代“殺手級”應用。

原文標題:用一句話,讓AI畫一匹馬是什么體驗?

文章出處:【微信公眾號:微軟科技】歡迎添加關注!文章轉載請注明出處。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)

    關注

    8

    文章

    7339

    瀏覽量

    94833
  • AI
    AI
    +關注

    關注

    91

    文章

    40001

    瀏覽量

    301643
  • 模型
    +關注

    關注

    1

    文章

    3764

    瀏覽量

    52135

原文標題:用一句話,讓AI畫一匹馬是什么體驗?

文章出處:【微信號:mstech2014,微信公眾號:微軟科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    商湯開源SenseNova-MARS:突破模態(tài)搜索推理天花板

    )、GPT-5.2(67.64 分)。 SenseNova-MARS是首個支持動態(tài)視覺推理和圖文搜索深度融合的 Agentic VLM 模型,它能自己規(guī)劃步驟、調用工具,輕松搞定各種復雜任務
    的頭像 發(fā)表于 01-29 23:53 ?168次閱讀
    商湯開源SenseNova-MARS:突破<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>搜索推理天花板

    商湯科技日日新V6.5榮獲2025年模態(tài)模型全國第一

    近日,權威大模型評測基準 SuperCLUE 發(fā)布《中文模態(tài)視覺語言模型測評基準12月報告》,商湯日日新V6.5(SenseNova V6
    的頭像 發(fā)表于 01-06 14:44 ?682次閱讀
    商湯科技日日新V6.5榮獲2025年<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>全國第一

    模態(tài)感知大模型驅動的密閉空間自主勘探系統(tǒng)的應用與未來發(fā)展

    ? ? 模態(tài)感知大模型驅動的密閉空間自主勘探系統(tǒng) ? ?北京華盛恒輝模態(tài)感知大模型驅動的密閉
    的頭像 發(fā)表于 12-29 11:27 ?315次閱讀

    商湯科技正式發(fā)布并開源全新模態(tài)模型架構NEO

    商湯科技正式發(fā)布并開源了與南洋理工大學S-Lab合作研發(fā)的全新模態(tài)模型架構 —— NEO,為日日新SenseNova 模態(tài)
    的頭像 發(fā)表于 12-08 11:19 ?1041次閱讀
    商湯科技正式發(fā)布并開源全新<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>模型</b>架構NEO

    亞馬遜云科技上線Amazon Nova模態(tài)嵌入模型

    Embeddings模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,這是一款專為Agentic RAG與語義搜索應用打造的頂尖模態(tài)
    的頭像 發(fā)表于 10-29 17:15 ?280次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入<b class='flag-5'>模型</b>

    米爾RK3576部署端側模態(tài)輪對話,6TOPS算力驅動30億參數(shù)LLM

    加載 → 圖片預處理 → 用戶交互 → 推理輸出”的核心流程,支持圖文一體的模態(tài)對話,適配輪問答、視覺問答等典型場景。 具體運行機制可拆
    發(fā)表于 09-05 17:25

    基于米爾瑞芯微RK3576開發(fā)板的Qwen2-VL-3B模型NPU模態(tài)部署評測

    這類模態(tài)模型支持圖像和文本交互)中,“視覺 + 投影”(Vision + Projector)是
    發(fā)表于 08-29 18:08

    研華科技攜手創(chuàng)新奇智推出模態(tài)模型AI一體機

    這是一款基于研華高性能邊緣計算平臺MIC-733,深度集成創(chuàng)新奇智視覺模型模態(tài)模型的邊緣智能終端,通過創(chuàng)新的“
    的頭像 發(fā)表于 07-17 17:14 ?970次閱讀
    研華科技攜手創(chuàng)新奇智推出<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>AI一體機

    NVIDIA助力圖靈新訊美推出企業(yè)級模態(tài)視覺模型融合解決方案

    中國推出企業(yè)級模態(tài)視覺模型融合解決方案,推動先進 AI 模型在交通治理、工業(yè)質檢、金融風控等領域實現(xiàn)高效識別、精準預警和穩(wěn)定交付。
    的頭像 發(fā)表于 06-26 09:17 ?1364次閱讀

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態(tài)模型

    熟悉愛芯通元NPU的網(wǎng)友很清楚,從去年開始我們在端側模態(tài)模型適配上一直處于主動緊跟的節(jié)奏。先后適配了國內最早開源的模態(tài)大模MiniCP
    的頭像 發(fā)表于 04-21 10:56 ?3180次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B<b class='flag-5'>視覺</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    基于MindSpeed MM玩轉Qwen2.5VL模態(tài)理解模型

    模態(tài)理解模型是讓AI像人類一樣,通過整合多維度信息(如視覺、語言、聽覺等),理解數(shù)據(jù)背后的語義、情感、邏輯或場景,從而完成推理、決策等任務
    的頭像 發(fā)表于 04-18 09:30 ?3069次閱讀
    基于MindSpeed MM玩轉Qwen2.5VL<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>理解<b class='flag-5'>模型</b>

    ??低暟l(fā)布模態(tài)模型AI融合巡檢超腦

    基于??涤^瀾大模型技術體系,??低曂瞥鲂乱淮?b class='flag-5'>多模態(tài)模型AI融合巡檢超腦,全面升級人、車、行為、事件等算法,為行業(yè)帶來全新的
    的頭像 發(fā)表于 04-17 17:12 ?1652次閱讀

    移遠通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗

    全系智能模組產(chǎn)品已全面接入火山引擎豆包VLM(視覺語言)模態(tài)AI大模型。這一突破性進展表明,搭載移遠任意智能模組的終端設備,均可無縫融合
    發(fā)表于 03-21 14:12 ?543次閱讀
    移遠通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大<b class='flag-5'>模型</b>,重塑智能交互新體驗

    移遠通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗

    智能模組產(chǎn)品已全面接入火山引擎豆包VLM(視覺語言)模態(tài)AI大模型。這一突破性進展表明,搭載移遠任意智能模組的終端設備,均可無縫融合
    的頭像 發(fā)表于 03-20 19:03 ?859次閱讀
    移遠通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大<b class='flag-5'>模型</b>,重塑智能交互新體驗

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結合視覺(圖像/視頻)和語言(文本)處理能力的模態(tài)人工智能
    的頭像 發(fā)表于 03-17 15:32 ?8969次閱讀
    ?VLM(<b class='flag-5'>視覺</b>語言<b class='flag-5'>模型</b>)?詳細解析