91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟提出極低資源下語(yǔ)音合成與識(shí)別新方法,小語(yǔ)種不怕沒(méi)數(shù)據(jù)

電子工程師 ? 來(lái)源:YXQ ? 2019-05-22 14:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

目前,人類使用的語(yǔ)言種類有近7000種,然而由于缺乏足夠的語(yǔ)音-文本監(jiān)督數(shù)據(jù),絕大多數(shù)語(yǔ)言并沒(méi)有對(duì)應(yīng)的語(yǔ)音合成與識(shí)別功能。為此,微軟亞洲研究院機(jī)器學(xué)習(xí)組聯(lián)合微軟(亞洲)互聯(lián)網(wǎng)工程院語(yǔ)音團(tuán)隊(duì)在ICML 2019上提出了極低資源下的語(yǔ)音合成與識(shí)別新方法,幫助所有人都可以享受到最新語(yǔ)音技術(shù)帶來(lái)的便捷。

基于文本的語(yǔ)音合成(Text-to-Speech, TTS)和自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR)是語(yǔ)音處理中的兩個(gè)典型任務(wù)。得益于深度學(xué)習(xí)的發(fā)展和大量配對(duì)的語(yǔ)音-文本監(jiān)督數(shù)據(jù),TTS和ASR在特定的語(yǔ)言上都達(dá)到了非常優(yōu)秀的性能,甚至超越了人類的表現(xiàn)。然而,由于世界上大部分語(yǔ)言都缺乏大量配對(duì)的語(yǔ)音-文本數(shù)據(jù),并且收集這樣的監(jiān)督數(shù)據(jù)需要耗費(fèi)大量的資源,這使得在這些語(yǔ)言上開發(fā)TTS和ASR系統(tǒng)變得非常困難。為了解決這個(gè)問(wèn)題,微軟亞洲研究院機(jī)器學(xué)習(xí)組聯(lián)合微軟(亞洲)互聯(lián)網(wǎng)工程院語(yǔ)音團(tuán)隊(duì)提出了一種極低資源下的語(yǔ)音合成和識(shí)別的新模型方法,僅利用20分鐘語(yǔ)音-文本監(jiān)督數(shù)據(jù)以及額外的無(wú)監(jiān)督數(shù)據(jù),就能生成高可懂度的語(yǔ)音。

模型框架

TTS將文本轉(zhuǎn)成語(yǔ)音,而ASR將語(yǔ)音轉(zhuǎn)成文字,這兩個(gè)任務(wù)具有對(duì)偶性質(zhì)。受到這個(gè)啟發(fā),我們借鑒無(wú)監(jiān)督機(jī)器翻譯的相關(guān)思路,利用少量的配對(duì)語(yǔ)音-文本數(shù)據(jù)以及額外的不配對(duì)數(shù)據(jù),提出了一種接近無(wú)監(jiān)督的TTS和ASR方法。

首先,我們利用自我監(jiān)督學(xué)習(xí)的概念,讓模型分別建立對(duì)語(yǔ)言以及語(yǔ)音的理解建模能力。具體來(lái)說(shuō),我們基于不成對(duì)的語(yǔ)音和文本數(shù)據(jù),利用去噪自動(dòng)編碼器(Denoising Auto-Encoder, DAE)在編碼器-解碼器框架中重建人為加有噪聲的語(yǔ)音和文本。

其次,我們使用對(duì)偶轉(zhuǎn)換(Dual Transformation, DT),來(lái)分別訓(xùn)練模型將文本轉(zhuǎn)為語(yǔ)音和將語(yǔ)音轉(zhuǎn)為文本的能力:(a)TTS模型將文本X轉(zhuǎn)換為語(yǔ)音Y,然后ASR模型利用轉(zhuǎn)換得到語(yǔ)音-文本數(shù)據(jù)(Y,X)進(jìn)行訓(xùn)練; (b)ASR模型將語(yǔ)音Y轉(zhuǎn)換為文本X,然后TTS模型利用文本-語(yǔ)音數(shù)據(jù)(X,Y)進(jìn)行訓(xùn)練。對(duì)偶轉(zhuǎn)換在TTS和ASR之間不斷迭代,逐步提高兩個(gè)任務(wù)的準(zhǔn)確性。

考慮到語(yǔ)音序列通常比其它序列學(xué)習(xí)任務(wù)(如機(jī)器翻譯)的序列更長(zhǎng),它們將更多地受到錯(cuò)誤傳播的影響(在自回歸模型生成序列時(shí),序列中上一個(gè)錯(cuò)誤生成的元素將會(huì)對(duì)下一個(gè)元素的生成產(chǎn)生影響)。因此,生成序列的右側(cè)部分通常比左側(cè)部分差,然后通過(guò)訓(xùn)練迭代導(dǎo)致模型生成的序列始終表現(xiàn)為右側(cè)差。在低資源的場(chǎng)景下,這種現(xiàn)象更為嚴(yán)重。因此,我們進(jìn)一步利用文本和語(yǔ)音的雙向序列建模(Bidirectional Sequence Modeling, BSM)來(lái)緩解錯(cuò)誤傳播問(wèn)題。這樣,一個(gè)文本或語(yǔ)音序列可以從左到右生成,也可以從右到左生成,能防止模型始終生成某一側(cè)較差的序列。

最后,我們?cè)O(shè)計(jì)了一個(gè)基于Transformer的統(tǒng)一模型架構(gòu),可以將語(yǔ)音或文本作為輸入或輸出,以便將上述DAE、DT、BSM模塊整合在一起以實(shí)現(xiàn)TTS和ASR的功能。

如上圖所示,圖(a)描述了DAE和DT的轉(zhuǎn)換流程,圖(b)展示了我們采用的Transformer模型結(jié)構(gòu),圖(c)顯示了語(yǔ)音和文本的輸入輸出處理模塊。

實(shí)驗(yàn)結(jié)果

為了驗(yàn)證這一方法的有效性,我們?cè)谟⒄Z(yǔ)上模擬低資源的場(chǎng)景,選用LJSpeech數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),LJSpeech包含13100個(gè)英語(yǔ)音頻片段和相應(yīng)的文本,音頻的總長(zhǎng)度約為24小時(shí)。我們將數(shù)據(jù)集分成3組:300個(gè)樣本作為驗(yàn)證集,300個(gè)樣本作為測(cè)試集,剩下的12500個(gè)樣本用來(lái)訓(xùn)練。在這12500個(gè)樣本中,我們隨機(jī)選擇200個(gè)配對(duì)的語(yǔ)音和文本數(shù)據(jù),剩下的數(shù)據(jù)當(dāng)作不配對(duì)的語(yǔ)音文本數(shù)據(jù)。

我們邀請(qǐng)了30個(gè)專業(yè)評(píng)估員對(duì)生成的聲音進(jìn)行可懂度(Intelligibility Rate)以及MOS(Mean Opinion Score,平均主觀意見分)評(píng)測(cè)。MOS指標(biāo)用來(lái)衡量聲音接近人聲的自然度,在極低資源場(chǎng)景下,我們一般用可懂度來(lái)評(píng)估是否能產(chǎn)生可理解的聲音。

經(jīng)過(guò)實(shí)驗(yàn),我們提出的方法可以產(chǎn)生可理解的語(yǔ)音,其單詞級(jí)的可懂度高達(dá)99.84%,而如果僅對(duì)200個(gè)配對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,則幾乎無(wú)法產(chǎn)生可以被聽懂的語(yǔ)音,這顯示出我們方法在極低資源場(chǎng)景下的實(shí)用性。

下面展示了我們方法合成的聲音Demo:

文字:“The forms of printed letters should be beautiful and that their arrangement on the page should be reasonable and a help to the shapeliness of the letters themselves.”

更多Demo聲音,請(qǐng)?jiān)L問(wèn):

https://speechresearch.github.io/unsuper/

語(yǔ)音合成上的MOS得分以及語(yǔ)音識(shí)別的PER(Phoneme Error Rate,音素錯(cuò)誤率)如下表所示。我們的方法在TTS上達(dá)到2.68的MOS,在ASR上達(dá)到11.7%的PER,遠(yuǎn)優(yōu)于僅在200個(gè)配對(duì)數(shù)據(jù)上訓(xùn)練的基線模型(Pair-200),并且接近使用所有訓(xùn)練樣本的監(jiān)督模型(Supervised)。由于我們的語(yǔ)音合成僅使用了效果較差的Griffin-Lim作為聲碼器合成聲音,作為對(duì)比,我們也列出了真實(shí)樣本(Ground Truth, GT)以及真實(shí)樣本的梅爾頻譜圖通過(guò)Griffin-Lim轉(zhuǎn)換得到的聲音(GT(Griffin-Lim))的MOS得分作參考。

為了研究我們方法中每個(gè)模塊的有效性,我們通過(guò)逐步將每個(gè)模塊添加到基線(Pair-200)系統(tǒng)進(jìn)行對(duì)比研究。實(shí)驗(yàn)中先后添加了以下模塊:去噪自編碼器(DAE)、對(duì)偶變換(DT)和雙向序列建模(BSM),結(jié)果如下表所示??梢钥吹剑S著更多模塊的加入,TTS的MOS得分以及ASR的PER都穩(wěn)定地提高,顯示出各個(gè)模塊的重要性。

我們還可視化了測(cè)試集中由不同系統(tǒng)生成的梅爾頻譜圖,如下圖所示。由于Pair-200和Pair-200 + DAE不能產(chǎn)生能被理解的語(yǔ)音,因此紅色邊界框中的梅爾頻譜圖的細(xì)節(jié)也與真實(shí)頻譜大不相同。當(dāng)添加DT時(shí),整個(gè)頻譜圖更接近真實(shí)頻譜圖,然而受到誤差傳播的影響,位于頻譜圖序列末尾的紅色邊界框細(xì)節(jié)仍然與真實(shí)數(shù)據(jù)不同。當(dāng)進(jìn)一步添加BSM時(shí),邊界框中的細(xì)節(jié)比較接近真實(shí)數(shù)據(jù),這也證明了BSM在我們的方法中的有效性。當(dāng)然如果使用LJSpeech的全部配對(duì)數(shù)據(jù)進(jìn)行監(jiān)督訓(xùn)練,模型可以重建更接近真實(shí)情況的細(xì)節(jié)。

我們的方法僅利用約20分鐘的語(yǔ)音-文本配對(duì)數(shù)據(jù),以及額外的不配對(duì)數(shù)據(jù),在英語(yǔ)上取得了很好的效果,產(chǎn)生了高可懂度的語(yǔ)音。當(dāng)前,我們正在持續(xù)提高這一方法的性能,直接支持文本字符的輸入而不是先將字符轉(zhuǎn)化為音素作為輸入,同時(shí)支持多個(gè)說(shuō)話人的無(wú)監(jiān)督語(yǔ)音數(shù)據(jù)。我們還在嘗試?yán)酶俚恼Z(yǔ)音-文本數(shù)據(jù)(甚至完全不用配對(duì)數(shù)據(jù))以實(shí)現(xiàn)高質(zhì)量的語(yǔ)音合成與語(yǔ)音識(shí)別。未來(lái),我們將利用這項(xiàng)技術(shù)支持其它低資源語(yǔ)言,讓更多的語(yǔ)言擁有語(yǔ)音合成與識(shí)別功能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6746

    瀏覽量

    107974
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    39

    文章

    1812

    瀏覽量

    116143

原文標(biāo)題:微軟提出極低資源下語(yǔ)音合成與識(shí)別新方法,小語(yǔ)種不怕沒(méi)數(shù)據(jù)!| ICML 2019

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    語(yǔ)音識(shí)別IC分類,語(yǔ)音識(shí)別芯片的工作原理

    語(yǔ)音識(shí)別芯片,也叫語(yǔ)音識(shí)別集成電路,是一種集聲音存儲(chǔ)、播放、錄音及語(yǔ)音識(shí)別功能于一體的專用芯片。
    的頭像 發(fā)表于 01-14 15:22 ?295次閱讀
    <b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>IC分類,<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>芯片的工作原理

    用于窄帶匹配高速射頻ADC的全新方法

    本期,為大家?guī)?lái)的是《用于窄帶匹配高速射頻 ADC 的全新方法》,介紹了一種用于窄帶匹配高速射頻 ADC 的全新方法,以解決高中間頻率系統(tǒng)中 ADC 前端窄帶匹配的設(shè)計(jì)難題,可在 ADC 額定帶寬內(nèi)應(yīng)用,能提升 ADC 性能、減少模擬停機(jī)時(shí)間。
    的頭像 發(fā)表于 01-04 15:56 ?6828次閱讀
    用于窄帶匹配高速射頻ADC的全<b class='flag-5'>新方法</b>

    奧松電子榮獲2025年中國(guó)創(chuàng)新方法大賽全國(guó)總決賽二等獎(jiǎng)

    2025年11月18日-21日,2025年中國(guó)創(chuàng)新方法大賽總決賽在山東省泰安市成功舉辦。國(guó)內(nèi)MEMS智能傳感器與半導(dǎo)體關(guān)鍵零部件領(lǐng)域的國(guó)家級(jí)專精特新“小巨人”企業(yè)——廣州奧松電子股份有限公司,憑借
    的頭像 發(fā)表于 12-05 15:17 ?659次閱讀

    ??低晿s獲2025年中國(guó)創(chuàng)新方法大賽總決賽金獎(jiǎng)

    近日,2025年中國(guó)創(chuàng)新方法大賽圓滿落幕。??低晳{借《工業(yè)聽診師——超長(zhǎng)距離皮帶運(yùn)輸機(jī)托輥聲紋監(jiān)測(cè)系統(tǒng)》項(xiàng)目脫穎而出,斬獲全國(guó)總決賽唯一金獎(jiǎng)。
    的頭像 發(fā)表于 12-04 10:55 ?545次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    、Transformer 模型的后繼者 二、用創(chuàng)新方法實(shí)現(xiàn)深度學(xué)習(xí)AI芯片 1、基于開源RISC-V的AI加速器 RISC-V是一種開源、模塊化的指令集架構(gòu)(ISA)。優(yōu)勢(shì)如下: ①模塊化特性②標(biāo)準(zhǔn)接口③開源
    發(fā)表于 09-12 17:30

    聲智科技出席2025年北京市多語(yǔ)種AI語(yǔ)音翻譯大賽

    8月20日,由北京市科委、中關(guān)村管委會(huì)主辦,北京語(yǔ)言大學(xué)、北京第二外國(guó)語(yǔ)學(xué)院、北京市翻譯協(xié)會(huì)、中國(guó)人工智能百人會(huì)共同承辦的“2025年北京市多語(yǔ)種AI語(yǔ)音翻譯大賽”在中關(guān)村展示中心順利啟幕。聲智作為
    的頭像 發(fā)表于 08-25 17:18 ?1290次閱讀

    基于開源鴻蒙的語(yǔ)音識(shí)別語(yǔ)音合成應(yīng)用開發(fā)樣例

    本期內(nèi)容由AI Model SIG提供,介紹了在開源鴻蒙中,利用sherpa_onnx開源三方庫(kù)進(jìn)行ASR語(yǔ)音識(shí)別與TTS語(yǔ)音合成應(yīng)用開發(fā)的流程。
    的頭像 發(fā)表于 08-25 14:26 ?4249次閱讀
    基于開源鴻蒙的<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>及<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>合成</b>應(yīng)用開發(fā)樣例

    TTS文字合成語(yǔ)音芯片的使用場(chǎng)景

    TTS文字合成語(yǔ)音播報(bào)芯片的使用場(chǎng)景非常廣泛,可以適用于各行各業(yè),主要應(yīng)用于復(fù)雜的語(yǔ)音播報(bào)場(chǎng)景,下面小編帶大家一起來(lái)了解一。 傳統(tǒng)的語(yǔ)音播報(bào)芯片,主要是先把
    的頭像 發(fā)表于 08-22 17:11 ?1064次閱讀

    廣和通發(fā)布自研端側(cè)語(yǔ)音識(shí)別大模型FiboASR

    7月,全球領(lǐng)先的無(wú)線通信模組及AI解決方案提供商廣和通,發(fā)布其自主研發(fā)的語(yǔ)音識(shí)別大模型FiboASR。該模型專為端側(cè)設(shè)備上面臨的面對(duì)面實(shí)時(shí)對(duì)話及多人會(huì)議場(chǎng)景深度優(yōu)化,在低延遲語(yǔ)音交互、實(shí)時(shí)語(yǔ)音
    的頭像 發(fā)表于 08-04 11:43 ?1676次閱讀

    芯片制造中高精度膜厚測(cè)量與校準(zhǔn):基于紅外干涉技術(shù)的新方法

    、環(huán)境光干擾及薄膜傾斜等因素限制,測(cè)量精度難以滿足高精度工業(yè)需求。為此,本研究提出一種融合紅外干涉與激光校準(zhǔn)的薄膜厚度測(cè)量新方法,旨在突破傳統(tǒng)技術(shù)瓶頸,實(shí)現(xiàn)更精準(zhǔn)、
    的頭像 發(fā)表于 07-21 18:17 ?3013次閱讀
    芯片制造中高精度膜厚測(cè)量與校準(zhǔn):基于紅外干涉技術(shù)的<b class='flag-5'>新方法</b>

    無(wú)刷直流電機(jī)反電勢(shì)過(guò)零檢測(cè)新方法

    的危險(xiǎn)。同時(shí),根據(jù)控制信號(hào)占空比切換低速區(qū)與高速區(qū)反電勢(shì)采樣方式,能有效改善在低速區(qū)時(shí)反電勢(shì)過(guò)零檢測(cè)效果。實(shí)驗(yàn)結(jié)果表明,提出的反電勢(shì)過(guò)零檢測(cè)新方法能保證電機(jī)工作于更寬的轉(zhuǎn)速范圍內(nèi)。 純分享帖,點(diǎn)擊下方
    發(fā)表于 06-26 13:50

    明遠(yuǎn)智睿SSD2351開發(fā)板:語(yǔ)音機(jī)器人領(lǐng)域的變革力量

    的四核1.4GHz處理器具備強(qiáng)勁的運(yùn)算性能,能夠高效處理語(yǔ)音機(jī)器人運(yùn)行過(guò)程中的復(fù)雜任務(wù)。語(yǔ)音識(shí)別合成需要大量的計(jì)算資源,該處理器可以快速對(duì)
    發(fā)表于 05-28 11:36

    大模型時(shí)代的新燃料:大規(guī)模擬真多風(fēng)格語(yǔ)音合成數(shù)據(jù)

    大模型充分學(xué)習(xí)到語(yǔ)音的發(fā)音規(guī)律、語(yǔ)義特征、語(yǔ)境等信息,從而提升語(yǔ)音識(shí)別語(yǔ)音合成等關(guān)鍵能力,提供更加準(zhǔn)確、自然、智能的
    的頭像 發(fā)表于 04-30 16:17 ?713次閱讀

    普強(qiáng)信息入選2024語(yǔ)音識(shí)別技術(shù)公司TOP30榜單

    企業(yè)數(shù)字化升級(jí),這一榮譽(yù)不僅體現(xiàn)了普強(qiáng)在語(yǔ)音交互、語(yǔ)義理解、多語(yǔ)種識(shí)別等核心技術(shù)上的領(lǐng)先優(yōu)勢(shì),更是對(duì)普強(qiáng)自主研發(fā)的端到端語(yǔ)音識(shí)別系統(tǒng)在高噪聲
    的頭像 發(fā)表于 04-18 17:25 ?1267次閱讀

    【CW32模塊使用】語(yǔ)音合成播報(bào)模塊

    。SYN6288E 通過(guò)異步串 口(UART)通訊方式,接收待合成的文本數(shù)據(jù),實(shí)現(xiàn)文本到語(yǔ)音(或 TTS 語(yǔ)音)的轉(zhuǎn)換。
    的頭像 發(fā)表于 03-29 17:25 ?1259次閱讀
    【CW32模塊使用】<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>合成</b>播報(bào)模塊