91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

中國團隊將計算機“詞匯級唇讀”精度提高到84.41%

獨愛72H ? 來源:DeepTech ? 作者:DeepTech ? 2020-03-19 16:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

(文章來源:DeepTech)

近年來,隨著深度學習的迅速發(fā)展和廣泛的潛在應用,基于計算機視覺的唇讀技術(shù)受到越來越多的關(guān)注,它在實踐中有許多重要的應用,如輔助語音識別、生物認證、幫助聽障人士等。但是唇讀任務的難度非常高,一個關(guān)鍵點是如何有效地獲取唇部的運動信息,同時抵抗由姿勢、光線變化引起的識別困難,講話人的外貌、講話速度變化等干擾因素,此外,如何把唇語圖像特征與詞匯文本進行精確關(guān)聯(lián)或者區(qū)分同音詞也挑戰(zhàn)重重。

來自浙江工業(yè)大學、中國科學院智能信息處理重點實驗室以及中國科學院計算技術(shù)研究所的研究人員針對這些問題,提出在局部特征層和全局序列層引入互信息約束,以增強唇部視覺特征與語音內(nèi)容的關(guān)系。通過在一些主流數(shù)據(jù)集上測試,該團隊提出的方法有望同時具有較好的鑒別能力和魯棒性,以實現(xiàn)有效的唇讀。

唇讀領(lǐng)域有一個重要技術(shù)分支即詞匯級唇讀,對于該任務,需要用單個單詞標簽對每個輸入視頻進行注釋,盡管在同一視頻中也存在其他單詞,如上圖所示:(a)中的視頻樣本總共包括 29 幀,被注釋為 “ABOUT”,但是單詞“ABOUT” 的實際幀僅包括時間步驟 T=1219 的幀,這個間隔前后的幀分別對應于單詞是 “JUST” 和“TEN”,而不是“ABOUT”。在基于唇語視覺的研究中,我們總是很難劃分一個單詞的確切邊界。

這種特性要求一個好的唇讀模型能夠?qū)W習到同一個詞標簽下不同視頻中反映的潛在但一致的特性,從而能夠更多地關(guān)注有效的關(guān)鍵幀,而較少關(guān)注其他無關(guān)幀。除了不精確的詞匯邊界挑戰(zhàn)外,對應于同一個詞標簽的視頻樣本總是具有極大的多樣化和外觀變化,如(b)所示,所有這些特性都要求唇讀模型能夠抵抗序列中的噪聲,從而在不同的語音條件下捕獲一致的潛在模式。

同時,由于唇部動作的有效面積有限,不同的詞在說話過程中可能表現(xiàn)出相似的現(xiàn)象。特別是,同音詞的存在,不同的詞看起來可能相同或非常相似,增加了許多額外的困難,這些屬性要求模型能夠發(fā)現(xiàn)與幀級別中不同單詞相關(guān)的細粒度差異,以便區(qū)分每個單詞。為了解決上述問題,研究人員在不同層次上引入了互信息最大化(MIM),以幫助該模型學習魯棒性和區(qū)分性表示,從而實現(xiàn)有效的唇讀。

一方面,通過施加局部互信息最大化約束(LMIM)來約束每個時間步產(chǎn)生的特征,使其與語音內(nèi)容之間具有很強的相關(guān)性,從而提高了模型發(fā)現(xiàn)精細的嘴唇動作的能力,以及發(fā)音相似的單詞之間的細微差別,比如 “spend” 和“spending”;另一方面,引入了全局序列水平上的互信息最大化約束(GMIM),使得模型能夠更加注意區(qū)分與語音內(nèi)容相關(guān)的關(guān)鍵幀,而且在說話過程中出現(xiàn)的各種噪音也較少。

此外,GMIM 迫使模型學習不同樣本中同一個詞標簽的潛在一致全局模式,同時對姿勢、光照和其他不相關(guān)條件的變化具有魯棒性;LMIM 可增強每個時間步與單詞相關(guān)的細粒度運動,進一步增強不同單詞之間的差異。通過將這兩類約束結(jié)合起來,模型可以自動發(fā)現(xiàn)和區(qū)分目標詞的有效重要幀,而忽略其他無關(guān)幀,進一步提高了識別的精準度。

最后,團隊在兩個大規(guī)模的單詞級唇讀數(shù)據(jù)集 LRW 和 LRW-1000 上與同行提出的主流唇語識別模型方法做了對比評估,這兩個數(shù)據(jù)集的樣本都是從各種不同的電視節(jié)目中收集的,并且演講條件也有很大的變化,涵蓋了包括燈光條件、分辨率、姿勢、性別、化妝等在內(nèi)的多種說話條件。

LRW 于 2016 年發(fā)布,包括 500 個單詞的唇形樣本,1000 多個演講者,訓練集中的實例數(shù)達到 488766 個,驗證和測試集中的每個實例數(shù)為 25000 個;LRW-1000 數(shù)據(jù)集則是一個大規(guī)模的自然分布的字級基準數(shù)據(jù)集,總共有 1000 個中文詞匯,總計大約 718018 個樣本實例,持續(xù)時間約 57 小時,不過該數(shù)據(jù)集旨在覆蓋不同語音模式和成像條件下的自然變化,以納入實際應用中遇到的挑戰(zhàn)。

在 LRW 數(shù)據(jù)集上,引入 LMIM 之后,在基線準確率基礎(chǔ)上提高了約 1.19%,LMIM 有望為主要任務捕獲更具區(qū)分性和細粒度的特征,同時引入 GMIM 則把精度提高到了 84.41%,主要得益于其對不同幀的不同關(guān)注。

不過,在 LRW-1000 數(shù)據(jù)集上因其語音條件變化較大,包括燈光條件、分辨率、演講者年齡、姿勢、性別、化妝等,此前行業(yè)最佳測試結(jié)果僅為 38.19%。在這個數(shù)據(jù)集上獲得良好的識別效果仍是一個挑戰(zhàn),新的模型方式獲得了 38.79% 的識別精度,略微優(yōu)于現(xiàn)有的最新結(jié)果。

結(jié)果表明,該團隊提出的方法在不使用額外數(shù)據(jù)或額外的預訓練模型的情況下,在兩個具有挑戰(zhàn)性的數(shù)據(jù)集上相比其他唇語識別模型,呈現(xiàn)出一種新的實時性能狀態(tài)。此外,團隊表示,該方法還可以很容易地修改為其他任務的模型,從而為其他任務的研究提供一些有意義的見解。
(責任編輯:fqj)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 計算機
    +關(guān)注

    關(guān)注

    19

    文章

    7811

    瀏覽量

    93249
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124436
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    虹科 owa5X 無線嵌入式計算機 工業(yè)邊緣計算終端與車載網(wǎng)關(guān)優(yōu)選

    從工業(yè)邊緣計算終端車載高性能邊緣計算網(wǎng)關(guān),從工業(yè)嵌入式計算機
    的頭像 發(fā)表于 02-10 17:08 ?120次閱讀
    虹科 owa5X 無線嵌入式<b class='flag-5'>計算機</b> 工業(yè)<b class='flag-5'>級</b>邊緣<b class='flag-5'>計算</b>終端與車載網(wǎng)關(guān)優(yōu)選

    上海計算機視覺企業(yè)行學術(shù)沙龍走進西井科技

    12月5日,由中國圖象圖形學學會青年工作委員會(下簡稱“青工委”)、上海市計算機學會計算機視覺專委會(下簡稱“專委會”)聯(lián)合主辦,上海西井科技股份有限公司、江蘇路街道商會承辦的“上海計算機
    的頭像 發(fā)表于 12-16 15:39 ?610次閱讀

    深圳中國首個光量子計算機制造工廠落成

    據(jù)央視新聞報道;在24日;深圳南山區(qū)國內(nèi)首個光量子計算機制造工廠正式進入小規(guī)模生產(chǎn)階段,據(jù)悉該工廠是隸屬于玻色量子;總面積約5000平方米,集研發(fā)、制造、測試于一體,用于實現(xiàn)光量子計算機的工程化、標準化和規(guī)?;a(chǎn)。第一臺計算
    的頭像 發(fā)表于 11-25 17:17 ?2048次閱讀

    工控機與普通計算機的核心差異解析

    在工業(yè)自動化和智能制造領(lǐng)域,計算機設備作為核心控制單元,其選擇直接影響整個系統(tǒng)的穩(wěn)定性與可靠性。工控機與普通計算機雖同屬計算設備,但其設計目標、性能側(cè)重和應用場景存在根本性差異。準確理解這些差異,是進行正確設備選型的基礎(chǔ)。
    的頭像 發(fā)表于 11-25 14:45 ?1801次閱讀
    工控機與普通<b class='flag-5'>計算機</b>的核心差異解析

    龍芯中科斬獲2025中國工業(yè)計算機大會兩項殊榮

    近日,2025中國工業(yè)計算機大會(CCF ICCC 2025)在云南昆明召開。本次大會由中國計算機學會主辦,中國計算機學會工業(yè)控制計算機專委
    的頭像 發(fā)表于 11-10 17:35 ?676次閱讀

    2025中國計算機大會DPU技術(shù)論壇成功舉辦

    近日,備受矚目的第22屆中國計算機大會(CNCC2025)在哈爾濱開幕。本屆大會注冊人數(shù)突破1.2萬人,匯聚了來自全球計算機領(lǐng)域的頂尖學者、產(chǎn)業(yè)領(lǐng)袖、青年學子及國際組織代表。大會以“數(shù)智賦能、無限可能”為主題,旨在深度探討數(shù)字智能技術(shù)的前沿進展與未來趨勢,為推動
    的頭像 發(fā)表于 11-02 09:29 ?737次閱讀

    摩爾線程亮相2025中國計算機大會

    10月23日至25日,第二十二屆中國計算機大會(CNCC2025)在哈爾濱成功舉辦。大會以“數(shù)智賦能,無限可能”為主題,匯聚了來自全球計算機領(lǐng)域的頂尖學者、產(chǎn)業(yè)領(lǐng)袖、青年學子及國際組織代表,共同探討
    的頭像 發(fā)表于 10-27 17:46 ?1018次閱讀

    【作品合集】賽昉科技VisionFive 2單板計算機開發(fā)板測評

    賽昉科技VisionFive 2單板計算機開發(fā)板測評作品合集 產(chǎn)品介紹: 昉·星光 2是全球首款集成了3D GPU的高性能量產(chǎn)RISC-V單板計算機,搭載昉·驚鴻-7110(型號:JH-7110
    發(fā)表于 09-04 09:08

    工業(yè)計算機的重要性

    工業(yè)計算機對某些行業(yè)至關(guān)重要。我們將在下面詳細解釋這些行業(yè)中的工業(yè)計算機應用。1.制造與工業(yè)自動化工業(yè)計算機非常適合制造工廠,特別是那些想要自動化裝配過程的工廠。在這樣的環(huán)境中,工業(yè)
    的頭像 發(fā)表于 07-28 16:07 ?589次閱讀
    工業(yè)<b class='flag-5'>計算機</b>的重要性

    自動化計算機經(jīng)過加固后有什么好處?

    -40℃的寒冷環(huán)境中運行?C和溫度達到85℃的灼熱環(huán)境,這要歸功于此類系統(tǒng)中使用的寬溫度組件和被動冷卻技術(shù)。2.抗沖擊和振動自動化計算機是工業(yè)計算機,其設計和制造可
    的頭像 發(fā)表于 07-21 16:44 ?640次閱讀
    自動化<b class='flag-5'>計算機</b>經(jīng)過加固后有什么好處?

    自動化計算機的功能與用途

    工業(yè)自動化是指利用自動化計算機來控制工業(yè)環(huán)境中的流程、機器人和機械,以制造產(chǎn)品或其部件。工業(yè)自動化的目的是提高生產(chǎn)率、增加靈活性,并提升制造過程的質(zhì)量。工業(yè)自動化在汽車制造中體現(xiàn)得最為明顯,其中許多
    的頭像 發(fā)表于 07-15 16:32 ?757次閱讀
    自動化<b class='flag-5'>計算機</b>的功能與用途

    工業(yè)計算機與商用計算機的區(qū)別有哪些

    能夠高效穩(wěn)定地運行,減少停機時間,確保生產(chǎn)效率。那么工業(yè)計算機與普通商用計算機有哪些區(qū)別呢?一、組件選擇與制造質(zhì)量:工業(yè)組件:使用更寬溫度范圍(如-20°C60
    的頭像 發(fā)表于 07-10 16:36 ?768次閱讀
    工業(yè)<b class='flag-5'>計算機</b>與商用<b class='flag-5'>計算機</b>的區(qū)別有哪些

    工業(yè)計算機如何設計用于沖擊和振動

    工業(yè)計算機是為挑戰(zhàn)消費系統(tǒng)耐用性的環(huán)境而構(gòu)建的。在制造業(yè)、運輸業(yè)、國防和采礦業(yè)等領(lǐng)域,計算機面臨著持續(xù)的沖擊、振動和其他物理壓力。設計這些系統(tǒng)以在這種條件下保持可靠需要卓越的工程和創(chuàng)新技術(shù)。本文
    的頭像 發(fā)表于 05-19 15:27 ?513次閱讀
    工業(yè)<b class='flag-5'>計算機</b>如何設計用于沖擊和振動

    一文帶你了解工業(yè)計算機尺寸

    工業(yè)計算機是現(xiàn)代自動化、人工智能(AI)和邊緣計算的支柱。這些堅固耐用的系統(tǒng)旨在承受惡劣的環(huán)境,同時為關(guān)鍵應用提供可靠的性能。然而,由于有這么多可用的外形尺寸,為您的工業(yè)計算機選擇合適的尺寸可能是
    的頭像 發(fā)表于 04-24 13:35 ?1068次閱讀
    一文帶你了解工業(yè)<b class='flag-5'>計算機</b>尺寸

    計算機網(wǎng)絡入門指南

    計算機網(wǎng)絡是指將地理位置不同且具有獨立功能的多臺計算機及其外部設備,通過通信線路連接起來,在網(wǎng)絡操作系統(tǒng)、網(wǎng)絡管理軟件及網(wǎng)絡通信協(xié)議的管理和協(xié)調(diào)下,實現(xiàn)資源共享和信息傳遞的計算機系統(tǒng)。
    的頭像 發(fā)表于 04-22 14:29 ?2293次閱讀
    <b class='flag-5'>計算機</b>網(wǎng)絡入門指南