91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

設(shè)計(jì)非對(duì)稱(chēng)式互信息估計(jì)器減少音頻向視頻模態(tài)表達(dá)的不確定性

牽手一起夢(mèng) ? 來(lái)源:中科院自動(dòng)化 ? 作者:佚名 ? 2020-05-09 14:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著近年來(lái)音視頻生成技術(shù)的不斷發(fā)展,“虛擬主播”逐漸走入人們視野,并以其在虛擬客服、遠(yuǎn)程會(huì)議、電影剪輯等現(xiàn)實(shí)應(yīng)用場(chǎng)景中的重要作用而獲得了社會(huì)各界的廣泛關(guān)注。該技術(shù)旨在對(duì)輸入的音頻預(yù)測(cè)相應(yīng)口型,從而生成指定或任意人物的自然而準(zhǔn)確的面部說(shuō)話視頻。近日,中科院自動(dòng)化所智能感知與計(jì)算研究中心為此提出了一種新穎的音視頻協(xié)同計(jì)算方法,并重點(diǎn)解決了此前難以達(dá)成的任意人物協(xié)同生成問(wèn)題。

該方法一方面實(shí)現(xiàn)了利用語(yǔ)音驅(qū)動(dòng)任意對(duì)象的高清視頻生成,另一方面在正臉、側(cè)臉等多種場(chǎng)景下均顯著提升了生成視頻質(zhì)量。目前,該成果已被IJCAI 2020大會(huì)接收。

由于音視頻模態(tài)之間差異性等問(wèn)題,這項(xiàng)技術(shù)目前仍然存在著眾多挑戰(zhàn)。以往的研究方法往往將重點(diǎn)放在了模態(tài)內(nèi)之間,如只關(guān)注了視頻幀之間的損失約束,卻忽略了音視頻模態(tài)間最重要的問(wèn)題之一:如何將音頻信息高效充分地表達(dá)入視頻模態(tài)?同時(shí)由于人物與人物之間的個(gè)體差異,將同一模型應(yīng)用于任意人物視頻生成也存在較大的挑戰(zhàn)。

為解決上述問(wèn)題,團(tuán)隊(duì)精心設(shè)計(jì)了一個(gè)非對(duì)稱(chēng)式互信息估計(jì)器(Asymmetric Mutual Information Estimator, AMIE),以構(gòu)建音視頻模態(tài)間的約束。如圖1示,輸入一對(duì)音頻與人臉圖像數(shù)據(jù),互信息估計(jì)器輸出預(yù)測(cè)的互信息值。在這里,該方法使用Jensen-Shannon表示形式來(lái)改善互信息計(jì)算方式,使其更好地應(yīng)用于神經(jīng)網(wǎng)絡(luò)。通過(guò)這樣的互信息估計(jì)方式,該方法最大化音頻與視頻模態(tài)之間的互信息,減少音頻向視頻模態(tài)表達(dá)的不確定性,并以此獲得音頻和視頻信息之間的跨模態(tài)一致性,使得生成視頻中人物的口型更加準(zhǔn)確自然。

設(shè)計(jì)非對(duì)稱(chēng)式互信息估計(jì)器減少音頻向視頻模態(tài)表達(dá)的不確定性

該方法在LRW和GRID基礎(chǔ)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。圖2中的結(jié)果表明該方法生成的口型準(zhǔn)確度高,且能夠有效適應(yīng)不同膚色與嘴唇形狀差異。表1的量化結(jié)果顯示該方法在常用的對(duì)比指標(biāo)上的優(yōu)越性能。

該方法有能力對(duì)不存在于數(shù)據(jù)集中的任意人物進(jìn)行視頻合成,并能夠有效處理如姿態(tài)表情、性別差異等變化因素(見(jiàn)圖3)。例如,輸入一段女性語(yǔ)音(圖中第二行),該方法分別生成了現(xiàn)實(shí)場(chǎng)景的同性別人臉視頻(圖中第一行),和跨性別人臉視頻(圖中第三行)。

責(zé)任編輯:gt

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 音頻
    +關(guān)注

    關(guān)注

    31

    文章

    3188

    瀏覽量

    85582
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4838

    瀏覽量

    107799
  • 視頻
    +關(guān)注

    關(guān)注

    6

    文章

    2005

    瀏覽量

    74964
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    功率放大器在膠滴氣泡質(zhì)量與一致性分析研究中的應(yīng)用

    膠粘劑微量分配技術(shù)是大規(guī)模集成電路封裝的關(guān)鍵工藝,但傳統(tǒng)方法受多源不確定性因素制約性能提升。撞針壓電噴射技術(shù)雖具高頻高精度優(yōu)勢(shì),卻因膠粘劑流變特性時(shí)變不確定性導(dǎo)致分配機(jī)理復(fù)雜?,F(xiàn)有研究缺乏
    的頭像 發(fā)表于 03-06 11:18 ?39次閱讀
    功率放大器在膠滴氣泡質(zhì)量與一致性分析研究中的應(yīng)用

    戴爾PowerScale文件存儲(chǔ)系統(tǒng)專(zhuān)為數(shù)據(jù)生命周期靈活性而設(shè)計(jì)

    2026年,幾乎所有企業(yè)的IT架構(gòu)都在經(jīng)歷一個(gè)繞不開(kāi)的現(xiàn)實(shí):成本不確定性正在快速上升。
    的頭像 發(fā)表于 02-05 15:04 ?385次閱讀

    盤(pán)點(diǎn)國(guó)內(nèi)半導(dǎo)體行業(yè)中那些在2025年被終止的并購(gòu)

    終止潮背后:IPO重啟、估值體系錯(cuò)位、不確定性的三重博弈
    的頭像 發(fā)表于 01-07 11:00 ?1144次閱讀

    DP83826:確定性、低延遲、低功耗工業(yè)以太網(wǎng)PHY的卓越之選

    DP83826:確定性、低延遲、低功耗工業(yè)以太網(wǎng)PHY的卓越之選 在工業(yè)以太網(wǎng)領(lǐng)域,對(duì)于高性能、高可靠性物理層收發(fā)的需求日益增長(zhǎng)。DP83826作為一款符合IEEE 802.3 10BASE
    的頭像 發(fā)表于 12-17 16:15 ?333次閱讀

    DP83826Ax工業(yè)以太網(wǎng)PHY:確定性、低延遲與低功耗的完美融合

    DP83826Ax工業(yè)以太網(wǎng)PHY:確定性、低延遲與低功耗的完美融合 在工業(yè)以太網(wǎng)領(lǐng)域,對(duì)于高性能、高可靠性物理層收發(fā)的需求與日俱增。DP83826Ax作為一款單端口10/100Mbps以太網(wǎng)
    的頭像 發(fā)表于 12-15 15:20 ?429次閱讀

    DP83826Ax:確定性、低延遲工業(yè)以太網(wǎng)PHY的深度解析

    DP83826Ax:確定性、低延遲工業(yè)以太網(wǎng)PHY的深度解析 在工業(yè)以太網(wǎng)領(lǐng)域,對(duì)于物理層收發(fā)的性能要求愈發(fā)嚴(yán)苛,尤其是在實(shí)時(shí)性、低延遲和低功耗等方面。DP83826Ax作為一款符合
    的頭像 發(fā)表于 12-15 15:20 ?411次閱讀

    渦輪部件多源不確定性機(jī)理與分類(lèi)體系研究:從幾何變異到認(rèn)知局限的系統(tǒng)解析

    渦輪部件作為航空發(fā)動(dòng)機(jī)和燃?xì)廨啓C(jī)的核心組成部分,其性能直接決定了整個(gè)動(dòng)力系統(tǒng)的效率、可靠性與壽命。在實(shí)際運(yùn)行環(huán)境中,渦輪部件的氣動(dòng)與換熱性能往往與設(shè)計(jì)預(yù)期存在顯著差異,這種差異主要源于全壽命周期中存在的多源不確定性因素。
    的頭像 發(fā)表于 11-12 14:29 ?640次閱讀
    渦輪部件多源<b class='flag-5'>不確定性</b>機(jī)理與分類(lèi)體系研究:從幾何變異到認(rèn)知局限的系統(tǒng)解析

    4種神經(jīng)網(wǎng)絡(luò)不確定性估計(jì)方法對(duì)比與代碼實(shí)現(xiàn)

    患者血壓,假設(shè)輸出是120/80這樣的正常值,表面看沒(méi)問(wèn)題。但如果模型其實(shí)對(duì)這個(gè)預(yù)測(cè)很不確定呢?這時(shí)候光看數(shù)值就不夠了。神經(jīng)網(wǎng)絡(luò)有幾種方法可以在給出預(yù)測(cè)的同時(shí)估計(jì)
    的頭像 發(fā)表于 11-10 10:41 ?493次閱讀
    4種神經(jīng)網(wǎng)絡(luò)<b class='flag-5'>不確定性</b><b class='flag-5'>估計(jì)</b>方法對(duì)比與代碼實(shí)現(xiàn)

    尋跡智行AMR融合RFID識(shí)別技術(shù),為柔性搬運(yùn)注入“確定性&quot;

    在智能物流與制造業(yè)不斷追求高效與柔性的今天,自主移動(dòng)機(jī)器人(AMR)已成為革新場(chǎng)內(nèi)物流的核心力量。其“柔性”特質(zhì)——靈活部署、智能調(diào)度、自主避障——完美應(yīng)對(duì)了現(xiàn)代生產(chǎn)中的不確定性。
    的頭像 發(fā)表于 10-27 14:34 ?321次閱讀
    尋跡智行AMR融合RFID識(shí)別技術(shù),為柔性搬運(yùn)注入“<b class='flag-5'>確定性</b>&quot;

    自動(dòng)駕駛端到端大模型為什么會(huì)有不確定性?

    。為了能讓自動(dòng)駕駛汽車(chē)做出正確、安全且符合邏輯的行駛動(dòng)作,端到端大模型被提了出來(lái)。 端到端大模型把從傳感輸入到控制輸出的任務(wù)盡可能用一個(gè)大網(wǎng)絡(luò)來(lái)完成,其優(yōu)點(diǎn)是能夠直接學(xué)習(xí)復(fù)雜映射,省去繁瑣的中間模塊,但代價(jià)是系統(tǒng)的
    的頭像 發(fā)表于 09-28 09:20 ?876次閱讀
    自動(dòng)駕駛端到端大模型為什么會(huì)有<b class='flag-5'>不確定性</b>?

    非對(duì)稱(chēng)密鑰生成和轉(zhuǎn)換規(guī)格詳解

    生成 以字符串參數(shù)生成RSA密鑰,具體的“字符串參數(shù)”由“RSA密鑰類(lèi)型”和“素?cái)?shù)個(gè)數(shù)”使用符號(hào)“|”拼接而成,用于在創(chuàng)建非對(duì)稱(chēng)密鑰生成器時(shí),指定密鑰規(guī)格。 說(shuō)明:生成RSA非對(duì)稱(chēng)密鑰時(shí),默認(rèn)素?cái)?shù)為2
    發(fā)表于 09-01 07:50

    虹科干貨 | 拆解TSN四大支柱:從「盡力而為」到工業(yè)實(shí)踐的確定性網(wǎng)絡(luò)

    ,基于CSMA/CD機(jī)制的傳統(tǒng)以太網(wǎng)暴露出致命缺陷——不確定性的延遲和抖動(dòng)。正是在這樣的背景下,時(shí)間敏感網(wǎng)絡(luò)(TSN)應(yīng)運(yùn)而生。*不想逐字讀長(zhǎng)文?點(diǎn)擊收聽(tīng)本文播客TSN并非全
    的頭像 發(fā)表于 08-27 17:33 ?1888次閱讀
    虹科干貨 | 拆解TSN四大支柱:從「盡力而為」到工業(yè)實(shí)踐的<b class='flag-5'>確定性</b>網(wǎng)絡(luò)

    康謀分享 | 基于多傳感數(shù)據(jù)的自動(dòng)駕駛仿真確定性驗(yàn)證

    自動(dòng)駕駛仿真測(cè)試中,游戲引擎的底層架構(gòu)可能會(huì)帶來(lái)非確定性的問(wèn)題,侵蝕測(cè)試可信度。如何通過(guò)專(zhuān)業(yè)仿真平臺(tái),在多傳感配置與極端天氣場(chǎng)景中實(shí)現(xiàn)測(cè)試數(shù)據(jù)零差異?確定性驗(yàn)證方案已成為自動(dòng)駕駛研發(fā)的關(guān)鍵突破口!
    的頭像 發(fā)表于 07-02 13:17 ?4255次閱讀
    康謀分享 | 基于多傳感<b class='flag-5'>器</b>數(shù)據(jù)的自動(dòng)駕駛仿真<b class='flag-5'>確定性</b>驗(yàn)證

    應(yīng)用分享 | 精準(zhǔn)生成和時(shí)序控制!AWG在確定性三量子比特糾纏光子源中的應(yīng)用

    丹麥哥本哈根大學(xué)最新研究利用任意波形發(fā)生(AWG),成功構(gòu)建保真度56%的確定性三量子比特GHZ態(tài)!AWG憑借精準(zhǔn)的信號(hào)生成和時(shí)序控制能力,充分展現(xiàn)了其在量子態(tài)操控中的強(qiáng)大能力。
    的頭像 發(fā)表于 06-06 14:06 ?1245次閱讀
    應(yīng)用分享 | 精準(zhǔn)生成和時(shí)序控制!AWG在<b class='flag-5'>確定性</b>三量子比特糾纏光子源中的應(yīng)用

    從科幻到現(xiàn)實(shí):智能家居如何重塑我們的生活方式?

    隨著城市化和經(jīng)濟(jì)不確定性加劇,智能家居市場(chǎng)快速增長(zhǎng),預(yù)計(jì)未來(lái)幾年將改變。
    的頭像 發(fā)表于 05-28 09:36 ?589次閱讀
    從科幻到現(xiàn)實(shí):智能家居如何重塑我們的生活方式?