91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一張照片定制自己的3D數(shù)字化身?

微軟科技 ? 來源:未知 ? 2023-03-22 00:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,由微軟亞洲研究院提出的 Roll-out Diffusion Network (RODIN) 模型,首次實現(xiàn)了利用生成擴(kuò)散模型在 3D 訓(xùn)練數(shù)據(jù)上自動生成 3D 數(shù)字化身(Avatar)的功能。僅需一張圖片甚至一句文字描述,RODIN 擴(kuò)散模型就能秒級生成 3D 化身,讓低成本定制 3D 頭像成為可能,為 3D 內(nèi)容創(chuàng)作領(lǐng)域打開了更多想象空間。相關(guān)論文“RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion”已被 CVPR 2023 接收。

創(chuàng)建個性化的用戶形象在如今的數(shù)字世界中非常普遍,很多 3D 游戲都設(shè)有這一功能。然而在創(chuàng)建個人形象的過程中,繁瑣的細(xì)節(jié)調(diào)整常常讓人又愛又恨,有時候大費周章地選了與自己相似的眼睛、鼻子、發(fā)型、眼鏡等細(xì)節(jié)之后,卻發(fā)現(xiàn)拼接起來與自己仍大相徑庭。既然現(xiàn)在的 AI 技術(shù)已經(jīng)可以生成惟妙惟肖的 2D 圖像,那么在 3D 世界中,我們是否可以擁有一個“AI 雕塑家”,僅通過一張照片就可以幫我們量身定制自己的 3D 數(shù)字化身呢?

微軟亞洲研究院新提出的 3D 生成擴(kuò)散模型 Roll-out Diffusion Network (RODIN)可以輕松做到。讓我們先來看看 RODIN 的實力吧!

46e5c67a-c803-11ed-bfe3-dac502259ad0.png46ff09f0-c803-11ed-bfe3-dac502259ad0.jpg

(a) 給定的照片

47172904-c803-11ed-bfe3-dac502259ad0.gif

(b)生成的虛擬形象

圖1:給定一張照片,RODIN 模型即可生成虛擬形象

46e5c67a-c803-11ed-bfe3-dac502259ad0.png4768dab0-c803-11ed-bfe3-dac502259ad0.gif

(a)輸入文字“留卷發(fā)和大胡子穿著黑色皮夾克的男性”

48ebff20-c803-11ed-bfe3-dac502259ad0.gif

(b) 輸入文字“紅色衣著非洲發(fā)型的女性”

圖2:給定文本描述,RODIN 模型可直接生成虛擬形象

與傳統(tǒng) 3D 建模需要投入大量人力成本、制作過程繁瑣不同的是,RODIN 以底層思路的創(chuàng)新突破與精巧的模型設(shè)計,突破了二次元到三次元的結(jié)界,實現(xiàn)了只輸入一張圖片或一句文字就能在幾秒之內(nèi)生成定制的 3D 數(shù)字化身的能力。在此之前,AI 生成技術(shù)還僅僅圍繞 2D 圖像進(jìn)行創(chuàng)作,RODIN 模型的出現(xiàn)也將極大地推動 AI 在 3D 生成領(lǐng)域的進(jìn)步。相關(guān)論文“RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion”已被 CVPR 2023 接收。

論文鏈接:

RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

https://arxiv.org/abs/2212.06135

項目頁面:

https://3d-avatar-diffusion.microsoft.com

49452a8c-c803-11ed-bfe3-dac502259ad0.png

RODIN模型首次將

擴(kuò)散模型應(yīng)用于3D訓(xùn)練數(shù)據(jù)

在 3D 生成領(lǐng)域,盡管此前有不少研究利用 GAN(生成對抗網(wǎng)絡(luò))或 VAE(變分自動編碼器)技術(shù),從大量 2D 圖像訓(xùn)練數(shù)據(jù)中生成 3D 圖像,但結(jié)果卻不盡如人意,“兩面派”、“三頭哪吒”等抽象派 3D 圖像時有出現(xiàn)??蒲腥藛T們認(rèn)為,造成這種現(xiàn)象的原因在于這些方法存在一個基礎(chǔ)的欠定(ill posed)問題,也就是說由于單視角圖片存在幾何二義性,從僅僅通過大量的 2D 數(shù)據(jù)很難學(xué)到高質(zhì)量 3D 化身的合理分布,所以才造成了各種不完美的生成結(jié)果。

對此,微軟亞洲研究院的研究員們轉(zhuǎn)變思路,首次提出 3D Diffusion Model,利用擴(kuò)散模型的表達(dá)能力來建模 3D 內(nèi)容。這種方法通過多張視角圖來訓(xùn)練 3D 模型,消除了歧義性、二義性所帶來的“四不象”結(jié)果,從而得到一個正確解,創(chuàng)建出更逼真的 3D 形象。

然而,要實現(xiàn)這種方法,還需要克服三個難題:

  • 首先,盡管擴(kuò)散模型此前在 2D 內(nèi)容生成上取得巨大成功,將其應(yīng)用在 3D 數(shù)據(jù)上并沒有可參考的實踐方法和可遵循的前例。如何將擴(kuò)散模型用于生成 3D 模型的多視角圖,是研究員們找到的關(guān)鍵切入點;

  • 其次,機(jī)器學(xué)習(xí)模型的訓(xùn)練需要海量的數(shù)據(jù),但一個多視圖、一致且多樣、高質(zhì)量和大規(guī)模的 3D 圖像數(shù)據(jù)很難獲取,還存在隱私和版權(quán)等方面的風(fēng)險。網(wǎng)絡(luò)公開的 3D 圖像又無法保證多視圖的一致性,且數(shù)據(jù)量也不足以支撐 3D 模型的訓(xùn)練;

  • 第三,在機(jī)器上直接拓展 2D 擴(kuò)散模型至 3D 生成,所需的內(nèi)存存儲與計算開銷幾乎無法承受。

49452a8c-c803-11ed-bfe3-dac502259ad0.png

多項技術(shù)創(chuàng)新讓RODIN模型

以低成本生成高質(zhì)量的3D圖像

為了解決上述難題,微軟亞洲研究院的研究員們創(chuàng)新地提出了 RODIN 擴(kuò)散模型,并在實驗中取得了優(yōu)異的效果,超越了現(xiàn)有模型的 SOTA 水平。

RODIN 模型采用神經(jīng)輻射場(NeRF)方法,并借鑒英偉達(dá)的 EG3D 工作,將 3D 空間緊湊地表達(dá)為空間三個互相垂直的特征平面(Triplane),并將這些圖展開至單個 2D 特征平面中,再執(zhí)行 3D 感知擴(kuò)散。具體而言,就是將 3D 空間在橫、縱、垂三個正交平面視圖上以二維特征展開,這樣不僅可以讓 RODIN 模型使用高效的 2D 架構(gòu)進(jìn)行 3D 感知擴(kuò)散,將三維圖像降維成二維圖像也大幅降低了計算復(fù)雜度和計算成本。

46e5c67a-c803-11ed-bfe3-dac502259ad0.png4980cb00-c803-11ed-bfe3-dac502259ad0.png

圖3:3D 感知卷積高效處理 3D 特征。(左圖) 用三平面(triplane)表達(dá) 3D 空間,此時底部特征平面的特征點對應(yīng)于另外兩個特征平面的兩條線。(右圖)引入 3D 感知卷積處理展開的 2D 特征平面,同時考慮到三個平面的三維固有對應(yīng)關(guān)系。

要實現(xiàn) 3D 圖像的生成需要三個關(guān)鍵要素:

  • 3D 感知卷積,確保降維后的三個平面的內(nèi)在關(guān)聯(lián)。傳統(tǒng) 2D 擴(kuò)散中使用的 2D 卷積神經(jīng)網(wǎng)絡(luò)(CNN)并不能很好地處理 Triplane 特征圖。而 3D 感知卷積并不是簡單生成三個 2D 特征平面,而是在處理這樣的 3D 表達(dá)時,考慮了其固有的三維特性,即三個視圖平面中其中一個視圖的 2D 特征本質(zhì)上是 3D 空間中一條直線的投影,因此與其他兩個平面中對應(yīng)的直線投影特征存在關(guān)聯(lián)性。為了實現(xiàn)跨平面通信,研究員們在卷積中考慮了這樣的 3D 相關(guān)性,因此高效地用 2D 的方式合成 3D 細(xì)節(jié)。

  • 隱空間協(xié)奏三平面 3D 表達(dá)生成。研究員們通過隱向量來協(xié)調(diào)特征生成,使其在整個三維空間中具有全局一致性,從而獲得更高質(zhì)量的化身并實現(xiàn)語義編輯,同時,還通過使用訓(xùn)練數(shù)據(jù)集中的圖像訓(xùn)練額外的圖像編碼器,該編碼器可提取語義隱向量作為擴(kuò)散模型的條件輸入。這樣,整體的生成網(wǎng)絡(luò)可視為自動編碼器,用擴(kuò)散模型作為解碼隱空間向量。對于語義可編輯性,研究員們采用了一個凍結(jié)的 CLIP 圖像編碼器,與文本提示共享隱空間。

  • 層級式合成,生成高保真立體細(xì)節(jié)。研究員們利用擴(kuò)散模型先生成了一個低分辨率的三視圖平面(64×64),然后再通過擴(kuò)散上采樣生成高分辨率的三平面(256×256)。這樣,基礎(chǔ)擴(kuò)散模型集中于整體 3D 結(jié)構(gòu)生成,而后續(xù)上采樣模型專注于細(xì)節(jié)生成。

46e5c67a-c803-11ed-bfe3-dac502259ad0.png49a95782-c803-11ed-bfe3-dac502259ad0.png

圖4:RODIN 模型概述

此外,在訓(xùn)練數(shù)據(jù)集方面,研究員們借助開源的三維渲染軟件 Blender,通過隨機(jī)組合畫師手動創(chuàng)建的虛擬 3D 人物圖像,再加上從大量頭發(fā)、衣服、表情和配飾中隨機(jī)采樣,進(jìn)而創(chuàng)建了10萬個合成個體,同時為每個個體渲染出了300個分辨率為256*256的多視圖圖像。在文本到 3D 頭像的生成上,研究員們采用了 LAION-400M數(shù)據(jù)集的人像子集訓(xùn)練從輸入模態(tài)到 3D 擴(kuò)散模型隱空間的映射,最終讓 RODIN 模型可以只使用一張 2D 圖像或一句文字描述就能創(chuàng)建出逼真的 3D 頭像。

46e5c67a-c803-11ed-bfe3-dac502259ad0.png49e4d758-c803-11ed-bfe3-dac502259ad0.gif

圖5:利用文字做 3D 肖像編輯

46e5c67a-c803-11ed-bfe3-dac502259ad0.png4b117a1e-c803-11ed-bfe3-dac502259ad0.gif

圖6:更多隨機(jī)生成的虛擬形象 (更多結(jié)果請點擊閱讀原文,移步項目網(wǎng)頁)

微軟亞洲研究院主管研究員張博表示,“此前,3D 領(lǐng)域的研究受限于技術(shù)或高成本,生成的 3D 結(jié)果主要是點云、體素、網(wǎng)格等形式的粗糙幾何體,而 RODIN 模型可創(chuàng)建出前所未有的 3D 細(xì)節(jié),為 3D 內(nèi)容生成研究打開了新的思路。我們希望 RODIN 模型在未來可以成為 3D 內(nèi)容生成領(lǐng)域的基礎(chǔ)模型,為后續(xù)的學(xué)術(shù)研究和產(chǎn)業(yè)應(yīng)用創(chuàng)造更多可能?!?/p>

49452a8c-c803-11ed-bfe3-dac502259ad0.png

讓3D內(nèi)容生成

更個性、更普適

現(xiàn)如今,虛擬人、數(shù)字化身在電影、游戲、元宇宙、線上會議、電商等行業(yè)和場景中的需求日益增多,但其制作流程卻相當(dāng)復(fù)雜專業(yè),每個高質(zhì)量的化身都必須由專業(yè)的 3D 畫師精心創(chuàng)作,尤其是在建模頭發(fā)和面部毛發(fā)時,甚至需要逐根繪制,其中的艱辛歷程外人難以想象。微軟亞洲研究院 RODIN 模型的快速生成能力,可以協(xié)助 3D 畫師減輕數(shù)字化身創(chuàng)作的工作量,提升效率,促進(jìn) 3D 內(nèi)容產(chǎn)業(yè)的發(fā)展。

目前,3D 真人化身的創(chuàng)建耗時耗力,很多項目背后可能都有一個上百人的團(tuán)隊在做支持,實現(xiàn)方法更多的是借助虛幻引擎、游戲引擎,再加上畫師的專業(yè)繪畫能力,才能設(shè)計出高度逼真的真人定制 3D 化身,普通大眾很難使用這些服務(wù),通常只能得到一些現(xiàn)成的、與本人毫無關(guān)連的化身。而 RODIN 模型低成本和可定制化的 3D 建模技術(shù),兼具普適性和個性化,讓 3D 內(nèi)容生成走向大眾成為可能。

劉潏

微軟亞洲研究院資深產(chǎn)品經(jīng)理


盡管當(dāng)前 RODIN 模型生成結(jié)果主要為半身的 3D 頭像,但是其技術(shù)能力并不僅限于 3D 頭像的生成。隨著包括花草樹木、建筑、汽車家居等更多類別和更大規(guī)模訓(xùn)練數(shù)據(jù)的學(xué)習(xí),RODIN 模型將能生成更多樣的 3D 圖像。下一步,微軟亞洲研究院的研究員們將用 RODIN 模型探索更多 3D 場景創(chuàng)建的可能,向一個模型生成 3D 萬物的終極目標(biāo)不斷努力。

關(guān)注微軟科技視頻號

了解更多科技前沿資訊

523f6710-c803-11ed-bfe3-dac502259ad0.png ? ?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6741

    瀏覽量

    107860

原文標(biāo)題:一張照片定制自己的3D數(shù)字化身?

文章出處:【微信號:mstech2014,微信公眾號:微軟科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    DLP78TUV:助力3D打印的數(shù)字微鏡器件

    DLP78TUV:助力3D打印的數(shù)字微鏡器件 在3D打印技術(shù)飛速發(fā)展的今天,數(shù)字微鏡器件(DMD)作為關(guān)鍵組件,對打印質(zhì)量和效率起著至關(guān)重要的作用。今天,我們就來深入了解
    的頭像 發(fā)表于 12-10 13:50 ?485次閱讀

    一張照片實現(xiàn)唱跳+對口型?千問App新玩法!

    行業(yè)資訊
    腦極體
    發(fā)布于 :2025年12月02日 22:06:44

    城市一張網(wǎng),以數(shù)據(jù)之橋擎托未來

    以“城市一張網(wǎng)”為基石,打造可信數(shù)據(jù)空間,賦能全域數(shù)字化轉(zhuǎn)型
    的頭像 發(fā)表于 10-14 09:29 ?2033次閱讀
    城市<b class='flag-5'>一張</b>網(wǎng),以數(shù)據(jù)之橋擎托未來

    數(shù)字孿生可視化系統(tǒng)構(gòu)建行業(yè)數(shù)字化智能管理生態(tài)!

    數(shù)字孿生可視化系統(tǒng)具備豐富的模型組件,包括二維平面組件及3D模型組件,可根據(jù)用戶需求進(jìn)行定制。數(shù)字孿生可視化系統(tǒng)在行業(yè)數(shù)字化升級、
    的頭像 發(fā)表于 09-19 11:45 ?740次閱讀
    <b class='flag-5'>數(shù)字</b>孿生可視化系統(tǒng)構(gòu)建行業(yè)<b class='flag-5'>數(shù)字化</b>智能管理生態(tài)!

    玩轉(zhuǎn) KiCad 3D模型的使用

    時間都在與 2D 的焊盤、走線和絲印打交道。但個完整的產(chǎn)品,終究是要走向物理世界的。元器件的高度、接插件的朝向、與外殼的配合,這些都是 2D 視圖難以表達(dá)的。 幸運的是,KiCad 提供了強(qiáng)大的
    的頭像 發(fā)表于 09-16 19:21 ?1.2w次閱讀
    玩轉(zhuǎn) KiCad <b class='flag-5'>3D</b>模型的使用

    索尼與VAST達(dá)成3D業(yè)務(wù)合作

    與Tripo AI的高精度3D生成能力,打造從內(nèi)容創(chuàng)作到沉浸式展示的全鏈路解決方案。此次合作將推動3D技術(shù)在展覽、零售、教育等場景的普惠化應(yīng)用,同時也將為元宇宙、工業(yè)設(shè)計、數(shù)字孿生等領(lǐng)域注入新的動能,開啟
    的頭像 發(fā)表于 08-28 17:32 ?1425次閱讀

    AD 3D封裝庫資料

    ?AD ?PCB 3D封裝
    發(fā)表于 08-27 16:24 ?7次下載

    可存儲1000人臉特征的3D人臉識別模塊 支持小程序管理

    ,專為用于智能智能門鎖,智能門禁,金融支付等場景研發(fā),支持3D活體檢測,3D人臉識別,紅外活體檢測,可見光活體檢測等,可以抵御照片、視頻等二維攻擊,面具等三維攻擊
    的頭像 發(fā)表于 08-25 12:02 ?440次閱讀
    可存儲1000<b class='flag-5'>張</b>人臉特征的<b class='flag-5'>3D</b>人臉識別模塊 支持小程序管理

    Gagne公司免費3D CAD工程波紋管模型下載

    的轉(zhuǎn)換。 隨著eCATALOG 3Dfindit的推出,Gagne配置器能夠充分借助最大的搜索3D產(chǎn)品數(shù)據(jù)的工程師網(wǎng)站之3Dfindit。在3
    發(fā)表于 08-13 14:44

    3D打印能用哪些材質(zhì)?

    3D打印的材質(zhì)有哪些?不同材料決定了打印效果、強(qiáng)度、用途乃至安全性,本文將介紹目前主流的3D打印材質(zhì),幫助你找到最適合自己需求的材料。
    的頭像 發(fā)表于 07-28 10:58 ?3789次閱讀
    <b class='flag-5'>3D</b>打印能用哪些材質(zhì)?

    【Milk-V Duo S 開發(fā)板免費體驗】3- 嘗試免費3D打印了開發(fā)板外殼

    下載免費的模型文件(.stl),然后找3D打印網(wǎng)站進(jìn)行打印。 嘉立創(chuàng)免費3D打印 網(wǎng)上有很多可以進(jìn)行3D打印的網(wǎng)站,目前嘉立創(chuàng)3D打印有個免費打印的優(yōu)惠活動,可以每月領(lǐng)
    發(fā)表于 07-08 20:54

    UFI濾清器液壓系統(tǒng)公司(UFI Filter Hydraulics)3D零部件產(chǎn)品數(shù)據(jù)庫

    技術(shù)信息的3D PDF數(shù)據(jù)表。 與UFI Filters的合作始于2018年漢諾威工業(yè)博覽會之后。產(chǎn)品目錄取代了之前在網(wǎng)站上發(fā)布的內(nèi)容。如今,借助CADENAS,整個產(chǎn)品系統(tǒng)都實現(xiàn)了數(shù)字化,去年開始
    發(fā)表于 05-28 14:10

    3D AD庫文件

    3D庫文件
    發(fā)表于 05-28 13:57 ?6次下載

    3D閃存的制造工藝與挑戰(zhàn)

    3D閃存有著更大容量、更低成本和更高性能的優(yōu)勢,本文介紹了3D閃存的制造工藝與挑戰(zhàn)。
    的頭像 發(fā)表于 04-08 14:38 ?2430次閱讀
    <b class='flag-5'>3D</b>閃存的制造工藝與挑戰(zhàn)

    開源項目!如何制作個手機(jī)用的電動3D掃描轉(zhuǎn)盤

    這個項目里,作者會教你怎么做個簡單的電動3D掃描轉(zhuǎn)盤,主要是給手機(jī)用的。整個裝置分為三個部分:頂板、齒輪板和底座。頂板是個固定的平臺,用來放置你要掃描的物體。 中間的齒輪板是整個裝置的核心,它有
    發(fā)表于 03-25 13:45