91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

曠視AI開(kāi)源新突破:上傳照片即可生成表情包視頻!

AI機(jī)械姬 ? 來(lái)源:AI機(jī)械姬 ? 作者:AI機(jī)械姬 ? 2024-07-12 11:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

日前,曠視科技發(fā)布了一項(xiàng)新的開(kāi)源AI人像視頻生成框架——MegActor。該框架讓用戶(hù)只需輸入一張靜態(tài)肖像圖片和一段視頻(如演講、表情包、rap),便可生成一段表情豐富、動(dòng)作一致的AI人像視頻。生成的視頻長(zhǎng)度取決于輸入的視頻長(zhǎng)度。與阿里EMO、微軟VASA等最新AI視頻模型不同,曠視MegActor采用開(kāi)源方式,供開(kāi)發(fā)者社區(qū)使用。MegActor生成的視頻畫(huà)質(zhì)更出色,面部細(xì)節(jié)更加豐富自然。

wKgZomaQp8CARJnFAAAUzJBUboU053.png

為了展示其泛化性,MegActor甚至可以將VASA中的人物肖像和視頻組合生成,得到生動(dòng)的表情視頻。即使與阿里EMO的官方案例相比,MegActor也能生成近似的效果。

wKgaomaQp0qAR1g4AAGuNBaURo8083.png

總的來(lái)說(shuō),無(wú)論是讓肖像開(kāi)口說(shuō)話(huà)、唱歌、模仿搞怪表情包,MegActor都能生成逼真的效果。

論文鏈接:https://arxiv.org/abs/2405.20851

代碼地址:https://github.com/megvii-research/megactor

項(xiàng)目地址:https://megactor.github.io/

MegActor是曠視研究院的最新研究成果。曠視研究院是曠視公司級(jí)研究機(jī)構(gòu),旨在通過(guò)基礎(chǔ)創(chuàng)新突破AI技術(shù)邊界,以工程創(chuàng)新實(shí)現(xiàn)技術(shù)到產(chǎn)品的快速轉(zhuǎn)化。多年來(lái),曠視研究院已成為全球領(lǐng)先的人工智能研究機(jī)構(gòu)。

目前的人像視頻生成領(lǐng)域中,許多工作通常使用高質(zhì)量的閉源數(shù)據(jù)進(jìn)行訓(xùn)練,以追求更好的效果。而曠視研究院始終堅(jiān)持全面開(kāi)源,確保實(shí)際效果的可復(fù)現(xiàn)性。MegActor的訓(xùn)練數(shù)據(jù)全部來(lái)自公開(kāi)可獲取的開(kāi)源數(shù)據(jù)集,配合開(kāi)源代碼,使得感興趣的從業(yè)者可以從頭開(kāi)始完整復(fù)現(xiàn)這些效果。

為了完全復(fù)刻原始視頻的表情和動(dòng)作,MegActor采用原始圖像進(jìn)行驅(qū)動(dòng),這與多數(shù)廠商使用的中間表示方法(如sketch、pose、landmark)不同,能夠捕捉到細(xì)致的表情和運(yùn)動(dòng)信息。

曠視科技研究總經(jīng)理范浩強(qiáng)表示,在AI視頻生成領(lǐng)域,我們發(fā)現(xiàn)目前主流的骨骼關(guān)鍵點(diǎn)控制方式不僅要求用戶(hù)提供難以獲取的專(zhuān)業(yè)控制信號(hào),同時(shí)生成視頻的保真度也不盡如人意。通過(guò)研究發(fā)現(xiàn),使用原視頻進(jìn)行驅(qū)動(dòng),不僅降低了控制信號(hào)的門(mén)檻,更能生成保真且動(dòng)作一致的視頻。

具體來(lái)說(shuō),MegActor主要由兩個(gè)階段構(gòu)成:

wKgaomaQp2yAMbsSAAINHxF7tf0305.png

使用ReferenceNet對(duì)參考圖像進(jìn)行特征提取,獲取參考圖像的外觀和背景信息;

使用PoseGuider對(duì)輸入視頻進(jìn)行運(yùn)動(dòng)和表情信息提取,將這些信息遷移到參考圖像上。

雖然使用原始視頻進(jìn)行驅(qū)動(dòng)能帶來(lái)更豐富的表情細(xì)節(jié)和運(yùn)動(dòng)信息,但也存在ID泄露和背景干擾等挑戰(zhàn)。為此,MegActor采用了條件擴(kuò)散模型,引入了合成數(shù)據(jù)生成框架,創(chuàng)建具有一致動(dòng)作和表情但不同身份ID的視頻,以減輕ID泄露的問(wèn)題。MegActor還分割了參考圖像的前景和背景,并使用CLIP對(duì)背景細(xì)節(jié)進(jìn)行編碼,確保背景的穩(wěn)定性。

在數(shù)據(jù)訓(xùn)練方面,曠視研究院團(tuán)隊(duì)使用公開(kāi)數(shù)據(jù)集(VFHQ和CeleV)進(jìn)行訓(xùn)練,總時(shí)長(zhǎng)超過(guò)700小時(shí)。為了避免ID泄露問(wèn)題,團(tuán)隊(duì)還使用換臉和風(fēng)格化方法1:1生成合成數(shù)據(jù),實(shí)現(xiàn)表情和動(dòng)作一致但I(xiàn)D不一致的數(shù)據(jù)。此外,團(tuán)隊(duì)使用注視檢測(cè)模型處理數(shù)據(jù),獲取大約5%的高質(zhì)量數(shù)據(jù)進(jìn)行Finetune訓(xùn)練。

wKgaomaQp4-Ad7nyAAIrJv12wFw194.png

通過(guò)新的模型框架和訓(xùn)練方法,曠視研究院團(tuán)隊(duì)僅使用了不到200塊V100顯卡小時(shí)的訓(xùn)練時(shí)長(zhǎng),最終實(shí)現(xiàn)了以下特性:

根據(jù)輸入視頻生成任意持續(xù)時(shí)間的模仿視頻,確保角色身份一致性;

支持各種驅(qū)動(dòng)視頻,如演講、唱歌、表情包等;

支持不同畫(huà)風(fēng)(照片、傳統(tǒng)繪畫(huà)、漫畫(huà)、AI數(shù)字人等);

音頻生成方法相比,MegActor生成的視頻不僅能確保表情和動(dòng)作一致,更能達(dá)到自然程度。

目前,MegActor已經(jīng)完全開(kāi)源,供開(kāi)發(fā)者和用戶(hù)即開(kāi)即用。



審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39759

    瀏覽量

    301366
  • 開(kāi)源
    +關(guān)注

    關(guān)注

    3

    文章

    4204

    瀏覽量

    46129
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    歡迎使用中國(guó)香河英茂科工豆包智能體

    照片生成Q版/成人形象 → 調(diào)整細(xì)節(jié) 用于合拍、虛擬互動(dòng)、直播 3. 專(zhuān)業(yè)平臺(tái)(騰訊云/訊飛/HeyGen) 上傳3分鐘口播視頻+100句語(yǔ)音 平臺(tái)自動(dòng)
    發(fā)表于 02-14 07:22

    積極參與國(guó)家人工智能應(yīng)用中試基地建設(shè)

    12月4日,“AI終端共創(chuàng)未來(lái)”國(guó)家人工智能應(yīng)用中試基地(深圳、東莞)發(fā)布會(huì)在珠海舉行。此次發(fā)布會(huì)響應(yīng)國(guó)家“人工智能+”戰(zhàn)略,旨在匯聚粵港澳大灣區(qū)產(chǎn)業(yè)優(yōu)勢(shì)資源,推動(dòng)AI+移動(dòng)終端領(lǐng)域高質(zhì)量發(fā)展,共同打造世界級(jí)AI終端產(chǎn)業(yè)創(chuàng)新高地
    的頭像 發(fā)表于 12-15 11:50 ?424次閱讀

    AI技術(shù)助力國(guó)家博物館票務(wù)系統(tǒng)智慧化升級(jí)

    在文博旅游熱潮之下,中國(guó)國(guó)家博物館作為國(guó)家最高歷史文化藝術(shù)殿堂,觀眾接待量呈現(xiàn)井噴式增長(zhǎng)。為進(jìn)一步提升觀眾的通行效率和通行體驗(yàn),利用最新的AI技術(shù)為國(guó)家博物館量身打造了一套完整的人機(jī)核驗(yàn)閘機(jī),通過(guò)身份核驗(yàn)閘機(jī)建設(shè)和票務(wù)系統(tǒng)對(duì)
    的頭像 發(fā)表于 11-27 17:07 ?925次閱讀

    開(kāi)源鴻蒙MNN AI應(yīng)用開(kāi)發(fā)與MNN移植經(jīng)驗(yàn)

    本期內(nèi)容由AI Model SIG提供,介紹了在開(kāi)源鴻蒙中,利用MNN開(kāi)源框架開(kāi)發(fā)AI應(yīng)用以及基于MNN源碼編譯與Har封裝的方法。
    的頭像 發(fā)表于 09-04 11:31 ?4536次閱讀
    <b class='flag-5'>開(kāi)源</b>鴻蒙MNN <b class='flag-5'>AI</b>應(yīng)用開(kāi)發(fā)與MNN移植經(jīng)驗(yàn)

    科技AIBOX雙版本重磅發(fā)布!本地安全與全球適配,解鎖視頻智能新可能

    未來(lái),騰科技將繼續(xù)深耕AI邊緣計(jì)算與視頻分析技術(shù),為更多行業(yè)打造“量身定制”的智能解決方案,讓科技真正服務(wù)于業(yè)務(wù)創(chuàng)新!即刻聯(lián)系騰科技,解鎖你的專(zhuān)屬
    的頭像 發(fā)表于 08-27 14:00 ?1998次閱讀
    騰<b class='flag-5'>視</b>科技AIBOX雙版本重磅發(fā)布!本地安全與全球適配,解鎖<b class='flag-5'>視頻</b>智能新可能

    【Sipeed MaixCAM Pro開(kāi)發(fā)板試用體驗(yàn)】基于MaixCAM-Pro的AI生成圖像鑒別系統(tǒng)

    1. 項(xiàng)目概述 本項(xiàng)目旨在開(kāi)發(fā)并部署一個(gè)高精度的深度學(xué)習(xí)模型,用于自動(dòng)鑒別一張圖片是由AI生成(如Stable Diffusion, DALL-E, Midjourney等工具生成)還是真實(shí)的畫(huà)家
    發(fā)表于 08-21 13:59

    照片視頻太普通?涂鴉On-App AI黑科技,讓寵物/人像1秒C位出片!

    一鍵識(shí)別人/寵物并實(shí)現(xiàn)智能居中,點(diǎn)一下就能讓照片/視頻秒變質(zhì)感大片呢?01涂鴉助你一鍵生成氛圍感寫(xiě)真基于強(qiáng)大的On-AppAI技術(shù)架構(gòu),涂鴉重磅推出AI寫(xiě)真+
    的頭像 發(fā)表于 08-14 18:55 ?1209次閱讀
    <b class='flag-5'>照片</b><b class='flag-5'>視頻</b>太普通?涂鴉On-App <b class='flag-5'>AI</b>黑科技,讓寵物/人像1秒C位出片!

    生成AI 重塑自動(dòng)駕駛仿真:4D 場(chǎng)景生成技術(shù)的突破與實(shí)踐

    生成AI驅(qū)動(dòng)的4D場(chǎng)景技術(shù)正解決傳統(tǒng)方法效率低、覆蓋不足等痛點(diǎn),如何通過(guò)NeRF、3D高斯?jié)姙R等技術(shù)實(shí)現(xiàn)高保真動(dòng)態(tài)建模?高效生成極端天氣等長(zhǎng)尾場(chǎng)景?本文為您系統(tǒng)梳理AI驅(qū)動(dòng)的4D場(chǎng)景
    的頭像 發(fā)表于 08-06 11:20 ?5144次閱讀
    <b class='flag-5'>生成</b>式 <b class='flag-5'>AI</b> 重塑自動(dòng)駕駛仿真:4D 場(chǎng)景<b class='flag-5'>生成</b>技術(shù)的<b class='flag-5'>突破</b>與實(shí)踐

    上傳壓縮的時(shí)候總是顯示上傳失敗,為什么?

    上傳壓縮的時(shí)候總是顯示上傳失敗是說(shuō)明原因
    發(fā)表于 07-23 08:17

    微軟開(kāi)源GitHub Copilot Chat,AI編程迎來(lái)新突破

    30分,微軟首席執(zhí)行官Satya Nadella向大家展示了VS Code的最新AI開(kāi)源編輯器GitHub Copilot Chat。 GitHub Copilot Chat的一大技術(shù)亮點(diǎn)是其支持
    的頭像 發(fā)表于 07-02 09:34 ?1183次閱讀
    微軟<b class='flag-5'>開(kāi)源</b>GitHub Copilot Chat,<b class='flag-5'>AI</b>編程迎來(lái)新<b class='flag-5'>突破</b>

    4K、多模態(tài)、長(zhǎng)視頻AI視頻生成的下一個(gè)戰(zhàn)場(chǎng),誰(shuí)在領(lǐng)跑?

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎) 6月11日,豆包App上線視頻生成模型豆包Seedance 1.0 pro。這是字節(jié)跳動(dòng)最新視頻模型,支持文字與圖片輸入,可生成多鏡頭無(wú)縫切換的1080P高品質(zhì)
    的頭像 發(fā)表于 06-16 00:13 ?7277次閱讀

    攜手曙光云與中科天璣合作打造城市智能空間

    近日,北京科技有限公司(以下簡(jiǎn)稱(chēng)“”)、曙光云計(jì)算集團(tuán)股份有限公司(以下簡(jiǎn)稱(chēng)“曙光云”)與中科天璣數(shù)據(jù)科技股份有限公司(以下簡(jiǎn)稱(chēng)“中科天璣”)在北京舉行了合作會(huì)談,三方將在互聯(lián)
    的頭像 發(fā)表于 03-20 09:13 ?1248次閱讀

    發(fā)布AIS算法生產(chǎn)平臺(tái)V5.0版本

    近日,正式發(fā)布自研的算法生產(chǎn)平臺(tái)AIS(AI Service)5.0版!此次升級(jí),包括接入DeepSeek等三大核心能力重磅亮相,助力企業(yè)AI生產(chǎn)力再躍升!
    的頭像 發(fā)表于 03-12 17:18 ?1561次閱讀

    Banana Pi 與瑞薩電子攜手共同推動(dòng)開(kāi)源創(chuàng)新:BPI-AI2N

    與嵌入式系統(tǒng)的優(yōu)勢(shì),該聯(lián)合解決方案旨在打造更開(kāi)放、更靈活的軟硬件平臺(tái)。 “此次合作將提升瑞薩在開(kāi)源社區(qū)的知名度?;?RZ/V2N 的突破性 BPI-AI2N SOM 有望對(duì)多個(gè)行業(yè)產(chǎn)生重大影響,為工程師
    發(fā)表于 03-12 09:43

    運(yùn)動(dòng)猿入選2024年度智能體育典型案例

    2025年3月3日,工業(yè)和信息化部、國(guó)家體育總局聯(lián)合公布了“2024年度智能體育典型案例”名單,“運(yùn)動(dòng)猿智能體育教育產(chǎn)品方案”成功入選,成為智能青少年體育產(chǎn)品方向的典型案例。此次獲評(píng)是對(duì)
    的頭像 發(fā)表于 03-10 10:04 ?1027次閱讀