成人a片视频AV拍拍,伊人三区在线观看

識別延遲一直是設備端語音識別技術(shù)需要解決的重大問題，谷歌手機今天更新了手機端的語音識別技術(shù)——Gboard，重磅推出了一款端到端、全神經(jīng)、基于設備的語音識別器，支持Gboard中的語音輸入。通過谷歌最新的（RNN-T）技術(shù)訓練的模型，該模型精度超過CTC，并且只有80M，可直接在設備上運行。

2012年，語音識別研究獲得新突破——深度學習可以提高識別的準確性，最早探索這項技術(shù)的產(chǎn)品便是谷歌語音搜索了。這標志這語音識別革命的開始，從深層神經(jīng)網(wǎng)絡（DNNs）到遞歸神經(jīng)網(wǎng)絡（RNNs），長短期記憶網(wǎng)絡（LSTMs），卷積網(wǎng)絡（CNNs）等等，新的架構(gòu)和開發(fā)質(zhì)量每年都在快速提升。在發(fā)展過程中，識別延遲仍然是攻關(guān)難點。

今天，谷歌官方宣布，推出一款端到端、全神經(jīng)、基于設備的語音識別器，支持Gboard中的語音輸入。

在谷歌最近的論文“移動設備的流媒體端到端語音識別”中，提出了一種使用RNN傳感器（RNN-T）技術(shù)訓練的模型，并且可以在手機上實現(xiàn)。這意味著即使你的手機網(wǎng)絡延遲，甚至處于離線狀態(tài)，新的識別器也始終可用。

谷歌論文下載鏈接：

https://arxiv.org/abs/1811.06621

該模型以單詞級別運行，也就是說，當你說話時，它會逐個字符地輸出單詞，就像是你自己在敲鍵盤一樣。

語音識別的歷史

最初，語音識別系統(tǒng)由這樣幾個部分組成，將音頻片段（通常為10毫秒幀）映射到音素的聲學模型，將音素連接在一起形成單詞的發(fā)音模型，語言模型給出相應的短語。這些組件在早期系統(tǒng)中都是相互獨立的。

大約在2014年，研究人員開始專注于訓練單個神經(jīng)網(wǎng)絡，將輸入音頻波形直接映射到輸出句子。

也就是說，通過給定一系列音頻特征，生成一系列單詞或字形來建立學習模型，這種seq2seq模型的出現(xiàn)促進了“attention-based ”和“l(fā)isten-attend-spell” 模型的進展。

這些模型期望在識別準確度上做出突破，但其需要通檢查整個輸入序列來工作，并且在輸入時不允許輸出，這就很難實現(xiàn)實時語音轉(zhuǎn)錄了。

幾乎同一時間，一個被稱為CTC的獨立技術(shù)出現(xiàn)了，成功解決了識別延時的問題，采用CTC技術(shù)也就成為邁向RNN-T架構(gòu)最重要一步。

遞歸神經(jīng)網(wǎng)絡傳感器

RNN-Ts是一種非注意機制的seq2seq模型。與大多數(shù)seq2seq模型（通常需要處理整個輸入序列（在我們的例子中是波形）以產(chǎn)生輸出（句子））不同，RNN-T可以連續(xù)處理輸入樣本和流輸出符號，這種屬性對于語音識別尤其友好。在實現(xiàn)過程中，輸出符號是字母表的字符。RNN-T識別器會逐個輸出字符，并在適當?shù)奈恢幂斎肟崭瘛Ｋㄟ^反饋循環(huán)執(zhí)行此操作，該循環(huán)將模型預測的符號反饋到其中，以預測下一個符號，如下圖所示。

訓練這樣一只有效運行的模型已經(jīng)很困難，并且隨著我們開發(fā)的進展——進一步將單詞錯誤率降低了5％，模型變得更加計算密集。為了解決這個問題，我們開發(fā)了并行實現(xiàn)，使得RNN-T損失功能可以在Google的高性能CloudTPU v2硬件上大批量運行。這在訓練中實現(xiàn)了約3倍的加速。

離線識別

在傳統(tǒng)的語音識別引擎中，我們上面描述的聲學、發(fā)音和語言模型會被“組合”成一個大的圖搜索算法。當語音波形被呈現(xiàn)給識別器時，“解碼器”在給定輸入信號的情況下，會在該圖中搜索相似度最高的路徑，并讀出該路徑所采用的字序列。

通常，解碼器采用基礎(chǔ)模型的有限狀態(tài)傳感器（FST）表示。然而，盡管有復雜的解碼技術(shù)，圖搜索算法仍然非常之大，以我們的模型為例，可以達到了2GB。如此大的模型根本無法在移動設備上運行，因此這種方法需要在連線時才能正常工作。

為了提高語音識別的有效性，我們試圖通過直接在設備上運行新模型，來避免通信網(wǎng)絡的延遲和不可靠性。因此，我們的端到端方法不需要在大型解碼器圖上進行搜索。

相反，只通過單個神經(jīng)網(wǎng)絡的波束搜索進行。我們訓練的RNN-T提供與傳統(tǒng)的基于服務器的模型相同的精度，但只有450MB，可以更加智能地使用參數(shù)和打包信息。然而，即使在今天的智能手機上，450MB也不小了，并且，通過如此龐大的網(wǎng)絡傳輸信號依然很慢。

進一步的，我們通過使用參數(shù)量化和混合內(nèi)核技術(shù)來縮小模型，我們在2016年開發(fā)了這一技術(shù)并在TensorFlow精簡版庫上公開提供了模型優(yōu)化工具包。

模型量化相對于訓練的浮點模型提供4倍壓縮，在運行時提供4倍加速，使我們的RNN-T比單核上的實時語音運行得更快。壓縮后，我們模型的最終大小達到了80MB。

終于，當當當，我們的新型設備端神經(jīng)網(wǎng)絡Gboard語音識別器上線了。最初的版本，我們僅提供英語語言，適配所有Pixel手機。鑒于行業(yè)趨勢，隨著專業(yè)硬件和算法改進的融合，我們希望這里介紹的技術(shù)可以很快用于更多語言和更廣泛的應用領(lǐng)域。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴