国产性爱免费观看,亚洲色图欧美性爱中文字幕

日前，曠視科技發(fā)布了一項(xiàng)新的開(kāi)源AI人像視頻生成框架——MegActor。該框架讓用戶(hù)只需輸入一張靜態(tài)肖像圖片和一段視頻（如演講、表情包、rap），便可生成一段表情豐富、動(dòng)作一致的AI人像視頻。生成的視頻長(zhǎng)度取決于輸入的視頻長(zhǎng)度。與阿里EMO、微軟VASA等最新AI視頻模型不同，曠視MegActor采用開(kāi)源方式，供開(kāi)發(fā)者社區(qū)使用。MegActor生成的視頻畫(huà)質(zhì)更出色，面部細(xì)節(jié)更加豐富自然。

為了展示其泛化性，MegActor甚至可以將VASA中的人物肖像和視頻組合生成，得到生動(dòng)的表情視頻。即使與阿里EMO的官方案例相比，MegActor也能生成近似的效果。

總的來(lái)說(shuō)，無(wú)論是讓肖像開(kāi)口說(shuō)話(huà)、唱歌、模仿搞怪表情包，MegActor都能生成逼真的效果。

論文鏈接：https://arxiv.org/abs/2405.20851

代碼地址：https://github.com/megvii-research/megactor

項(xiàng)目地址：https://megactor.github.io/

MegActor是曠視研究院的最新研究成果。曠視研究院是曠視公司級(jí)研究機(jī)構(gòu)，旨在通過(guò)基礎(chǔ)創(chuàng)新突破AI技術(shù)邊界，以工程創(chuàng)新實(shí)現(xiàn)技術(shù)到產(chǎn)品的快速轉(zhuǎn)化。多年來(lái)，曠視研究院已成為全球領(lǐng)先的人工智能研究機(jī)構(gòu)。

目前的人像視頻生成領(lǐng)域中，許多工作通常使用高質(zhì)量的閉源數(shù)據(jù)進(jìn)行訓(xùn)練，以追求更好的效果。而曠視研究院始終堅(jiān)持全面開(kāi)源，確保實(shí)際效果的可復(fù)現(xiàn)性。MegActor的訓(xùn)練數(shù)據(jù)全部來(lái)自公開(kāi)可獲取的開(kāi)源數(shù)據(jù)集，配合開(kāi)源代碼，使得感興趣的從業(yè)者可以從頭開(kāi)始完整復(fù)現(xiàn)這些效果。

為了完全復(fù)刻原始視頻的表情和動(dòng)作，MegActor采用原始圖像進(jìn)行驅(qū)動(dòng)，這與多數(shù)廠商使用的中間表示方法（如sketch、pose、landmark）不同，能夠捕捉到細(xì)致的表情和運(yùn)動(dòng)信息。

曠視科技研究總經(jīng)理范浩強(qiáng)表示，在AI視頻生成領(lǐng)域，我們發(fā)現(xiàn)目前主流的骨骼關(guān)鍵點(diǎn)控制方式不僅要求用戶(hù)提供難以獲取的專(zhuān)業(yè)控制信號(hào)，同時(shí)生成視頻的保真度也不盡如人意。通過(guò)研究發(fā)現(xiàn)，使用原視頻進(jìn)行驅(qū)動(dòng)，不僅降低了控制信號(hào)的門(mén)檻，更能生成保真且動(dòng)作一致的視頻。

具體來(lái)說(shuō)，MegActor主要由兩個(gè)階段構(gòu)成：

使用ReferenceNet對(duì)參考圖像進(jìn)行特征提取，獲取參考圖像的外觀和背景信息；

使用PoseGuider對(duì)輸入視頻進(jìn)行運(yùn)動(dòng)和表情信息提取，將這些信息遷移到參考圖像上。

雖然使用原始視頻進(jìn)行驅(qū)動(dòng)能帶來(lái)更豐富的表情細(xì)節(jié)和運(yùn)動(dòng)信息，但也存在ID泄露和背景干擾等挑戰(zhàn)。為此，MegActor采用了條件擴(kuò)散模型，引入了合成數(shù)據(jù)生成框架，創(chuàng)建具有一致動(dòng)作和表情但不同身份ID的視頻，以減輕ID泄露的問(wèn)題。MegActor還分割了參考圖像的前景和背景，并使用CLIP對(duì)背景細(xì)節(jié)進(jìn)行編碼，確保背景的穩(wěn)定性。

在數(shù)據(jù)訓(xùn)練方面，曠視研究院團(tuán)隊(duì)使用公開(kāi)數(shù)據(jù)集（VFHQ和CeleV）進(jìn)行訓(xùn)練，總時(shí)長(zhǎng)超過(guò)700小時(shí)。為了避免ID泄露問(wèn)題，團(tuán)隊(duì)還使用換臉和風(fēng)格化方法1:1生成合成數(shù)據(jù)，實(shí)現(xiàn)表情和動(dòng)作一致但I(xiàn)D不一致的數(shù)據(jù)。此外，團(tuán)隊(duì)使用注視檢測(cè)模型處理數(shù)據(jù)，獲取大約5%的高質(zhì)量數(shù)據(jù)進(jìn)行Finetune訓(xùn)練。

通過(guò)新的模型框架和訓(xùn)練方法，曠視研究院團(tuán)隊(duì)僅使用了不到200塊V100顯卡小時(shí)的訓(xùn)練時(shí)長(zhǎng)，最終實(shí)現(xiàn)了以下特性：

根據(jù)輸入視頻生成任意持續(xù)時(shí)間的模仿視頻，確保角色身份一致性；

支持各種驅(qū)動(dòng)視頻，如演講、唱歌、表情包等；

支持不同畫(huà)風(fēng)（照片、傳統(tǒng)繪畫(huà)、漫畫(huà)、AI數(shù)字人等）；

與音頻生成方法相比，MegActor生成的視頻不僅能確保表情和動(dòng)作一致，更能達(dá)到自然程度。

目前，MegActor已經(jīng)完全開(kāi)源，供開(kāi)發(fā)者和用戶(hù)即開(kāi)即用。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
91

文章
39759

瀏覽量
301366
開(kāi)源

開(kāi)源

+關(guān)注

關(guān)注
3

文章
4204

瀏覽量
46129

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

曠視AI開(kāi)源新突破：上傳照片即可生成表情包視頻！

評(píng)論