91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌全神經(jīng)元的設(shè)備端語音識別器再推新品

MqC7_CAAI_1981 ? 來源:YXQ ? 2019-03-28 17:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在近二十年來,尤其是引入深度學(xué)習(xí)以后,語音識別取得了一系列重大突破,并一步步走向市場并搭載到消費(fèi)級產(chǎn)品中。然而在用戶體驗(yàn)上,「遲鈍」可以算得上這些產(chǎn)品最大的槽點(diǎn)之一,這也意味著語音識別的延遲問題已經(jīng)成為了該領(lǐng)域研究亟待解決的難點(diǎn)。日前,谷歌推出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)變換器(RNN-T)的全神經(jīng)元設(shè)備端語音識別器,能夠很好地解決目前語音識別所存在的延遲難題。谷歌也將這項(xiàng)成果發(fā)布在了官方博客上。

2012 年,語音識別研究表明,通過引入深度學(xué)習(xí)可以顯著提高語音識別準(zhǔn)確率,因此谷歌也較早地在語音搜索等產(chǎn)品中采用深度學(xué)習(xí)技術(shù)。而這也標(biāo)志著語音識別領(lǐng)域革命的開始:每一年,谷歌都開發(fā)出了從深度神經(jīng)網(wǎng)絡(luò)(DNN)到循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)、卷積網(wǎng)絡(luò)(CNNs)等一系列新的架構(gòu),進(jìn)一步地提高了語音識別的質(zhì)量。然而在此期間,延遲問題依舊是該領(lǐng)域需要攻克的主要難點(diǎn)——當(dāng)語音助手能夠?qū)崿F(xiàn)快速回答問題時(shí),用戶會(huì)感覺它有幫助得多。

日前,谷歌正式宣布推出端到端、全神經(jīng)元的設(shè)備端語音識別器,為 Gboard 中的語音輸入提供支持。在谷歌 AI 最近的一篇論文《移動(dòng)設(shè)備的流媒體端到端語音識別》(Streaming End-to-End Speech Recognition for Mobile Devices,論文閱讀地址:https://arxiv.org/abs/1811.06621)中,其研究團(tuán)隊(duì)提出了一種使用循環(huán)神經(jīng)網(wǎng)絡(luò)變換器(RNN-T,https://arxiv.org/pdf/1211.3711.pdf)技術(shù)訓(xùn)練的模型,該技術(shù)也足夠精簡可應(yīng)用到手機(jī)端上。這就意味著語音識別不再存在網(wǎng)絡(luò)延遲或故障問題——新的識別器即便處于離線狀態(tài)也能夠運(yùn)行。該模型處理的是字符水平的語音識別,因此當(dāng)人在說話時(shí),它會(huì)逐個(gè)字符地輸出單詞,這就跟有人在實(shí)時(shí)鍵入你說的話一樣,同時(shí)還能達(dá)到你對鍵盤聽寫系統(tǒng)的預(yù)期效果。

谷歌全神經(jīng)元的設(shè)備端語音識別器再推新品

該圖對比了識別同一句語音時(shí),服務(wù)器端語音識別器(左邊)以及新的設(shè)備端語音識別器(右邊)的生成情況。

關(guān)于語音識別的一點(diǎn)歷史

傳統(tǒng)而言,語音識別系統(tǒng)由幾個(gè)部分組成:一個(gè)將語音分割(一般為 10 毫秒的框架)映射到音素的聲學(xué)模型;一個(gè)將因素合成單詞的發(fā)音模型;以及一個(gè)表達(dá)給定短語可能性的語言模型。在早期的系統(tǒng)中,對這些組成部分的優(yōu)化都是單獨(dú)進(jìn)行的。

在 2014 年左右,研究人員就開始重點(diǎn)訓(xùn)練單個(gè)神經(jīng)網(wǎng)絡(luò),來直接將一個(gè)輸入語音波形映射到一個(gè)輸出句子。研究人員采用這種通過給定一系列語音特征生成一系列單詞或字母的序列到序列(sequence-to-sequence)方法開發(fā)出了「attention-based」(https://arxiv.org/pdf/1506.07503.pdf)和「listen-attend-spell」(https://arxiv.org/pdf/1508.01211.pdf)模型。雖然這些模型在準(zhǔn)確率上表現(xiàn)很好,但是它們一般通過回顧完整的輸入序列來識別語音,同時(shí)當(dāng)輸入進(jìn)來的時(shí)候也無法讓數(shù)據(jù)流輸出一項(xiàng)對于實(shí)時(shí)語音轉(zhuǎn)錄必不可少的特征。

與此同時(shí),當(dāng)時(shí)的一項(xiàng)叫做CTC(connectionist temporal classification)的技術(shù)幫助將生產(chǎn)式識別器的延遲時(shí)間減半。事實(shí)證明,這項(xiàng)進(jìn)展對于開發(fā)出 CTC 最新版本(改版本可以看成是 CTC 的泛化)中采用的 RNN-T 架構(gòu)來說,是至關(guān)重要的一步。

循環(huán)神經(jīng)網(wǎng)絡(luò)變換器(RNN-T)

RNN-T 是不采用注意力機(jī)制的序列到序列模型的一種形式。與大多數(shù)序列到序列模型需要處理整個(gè)輸入序列(本文案例中的語音波形)以生成輸出(句子)不同,RNN-T 能持續(xù)地處理輸入的樣本和數(shù)據(jù)流,并進(jìn)行符號化的輸出,這種符號化的輸出有助于進(jìn)行語音聽寫。在谷歌研究人員的實(shí)現(xiàn)中,符號化的輸出就是字母表中的字符。當(dāng)人在說話時(shí),RNN-T 識別器會(huì)逐個(gè)輸出字符,并進(jìn)行適當(dāng)留白。在這一過程中,RNN-T 識別器還會(huì)有一條反饋路徑,將模型預(yù)測的符號輸回給自己以預(yù)測接下來的符號,具體流程如下圖所示:

谷歌全神經(jīng)元的設(shè)備端語音識別器再推新品

RNN-T 的表示:用 x 表示輸入語音樣本;用 y 表示預(yù)測的符號。預(yù)測的符號(Softmax 層的輸出)y(u-1)通過預(yù)測網(wǎng)絡(luò)被輸回給模型,確保預(yù)測同時(shí)考慮到當(dāng)前的語音樣本以及過去的輸出。預(yù)測和解碼網(wǎng)絡(luò)都是LSTM RNN,聯(lián)合的模型則是前饋網(wǎng)絡(luò)(feedforward network ,相關(guān)論文查看地址:https://www.isca-speech.org/archive/Interspeech_2017/pdfs/0233.PDF)。預(yù)測網(wǎng)絡(luò)由 2 個(gè)擁有 2048 個(gè)單元的層和 1 個(gè)有著 640 個(gè)維度的投射層組成。解碼網(wǎng)絡(luò)則由 8 個(gè)這樣的層組成。圖源:Chris Thornton

有效地訓(xùn)練這樣的模型本來就已經(jīng)很難了,然而使用谷歌開發(fā)的這項(xiàng)能夠進(jìn)一步將單詞錯(cuò)誤率減少 5% 的新訓(xùn)練技術(shù),對計(jì)算能力也提出了更高的要求。對此,谷歌開發(fā)了一種平行實(shí)現(xiàn)的方法,讓 RNN-T 的損失函數(shù)能夠大批地在谷歌的高性能云平臺 TPUv2 芯片上高效運(yùn)行。

離線識別

在傳統(tǒng)的語音識別引擎中,上文中提到的聲學(xué)、發(fā)音和語言模型被「組合」成一個(gè)邊緣用語音單元及其概率標(biāo)記的大搜索圖(search graph)。在給定輸入信號的情況下,當(dāng)語音波形抵達(dá)識別器時(shí),「解碼器」就會(huì)在圖中搜索出概率最大的路徑,并讀出該路徑所采用的單詞序列。一般而言,解碼器假設(shè)基礎(chǔ)模型由 FST(Finite State Transducer)表示。然而,盡管現(xiàn)在已經(jīng)有精密的解碼技術(shù),但是依舊存在搜索圖太大的問題——谷歌的生成式模型的搜索圖大小近 2GB。由于搜索圖無法輕易地在移動(dòng)電話上托管,因此采用這種方法的模型只有在在線連接的情況中才能正常工作。

為了提高語音識別的有效性,谷歌研究人員還試圖通過直接將在設(shè)備上托管新模型來避免通信網(wǎng)絡(luò)的延遲及其固有的不可靠性。因此,谷歌提出的這一端到端的方法,不需要在大型解碼器圖上進(jìn)行搜索。相反,它采取對單個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行一系列搜索的方式進(jìn)行解碼。同時(shí),谷歌研究人員訓(xùn)練的 RNN-T 實(shí)現(xiàn)了基于服務(wù)器的傳統(tǒng)模型同樣的準(zhǔn)確度,但是該模型大小僅為 450MB,本質(zhì)上更加密集、更加智能地利用了參數(shù)和打包信息。不過,即便對于如今的智能手機(jī)來說,450 MB 依舊太大了,這樣的話當(dāng)它通過如此龐大的網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)信號傳輸時(shí),速度就會(huì)變得很慢。

對此,谷歌研究人員通過利用其于 2016 年開發(fā)的參數(shù)量化(parameter quantization )和混合內(nèi)核(hybrid kernel)技術(shù)(https://arxiv.org/abs/1607.04683),來進(jìn)一步縮小模型的大小,并通過采用 ensorFlow Lite 開發(fā)庫中的模型優(yōu)化工具包來對外開放。與經(jīng)過訓(xùn)練的浮點(diǎn)模型相比,模型量化的壓縮高出 4 倍,運(yùn)行速度也提高了 4 倍,從而讓 RNN-T 比單核上的實(shí)時(shí)語音運(yùn)行得更快。經(jīng)過壓縮后,模型最終縮小至 80MB。

谷歌全新的全神經(jīng)元設(shè)備端 Gboard 語音識別器,剛開始僅能在使用美式英語的 Pixel 手機(jī)上使用??紤]到行業(yè)趨勢,同時(shí)隨著專業(yè)化硬件和算法的融合不斷增強(qiáng),谷歌表示,希望能夠?qū)⑦@一技術(shù)應(yīng)用到更多語言和更廣泛的應(yīng)用領(lǐng)域中去。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6254

    瀏覽量

    111566
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1812

    瀏覽量

    116116

原文標(biāo)題:語音識別如何突破延遲瓶頸?谷歌推出了基于 RNN-T 的全神經(jīng)元設(shè)備端語音識別器

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學(xué)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    應(yīng)用案例 | 40倍鏡下解析小鼠腦部神經(jīng)元:深視智能sCMOS相機(jī)賦能膜片鉗實(shí)驗(yàn)高效開展

    01實(shí)驗(yàn)背景小鼠腦部神經(jīng)元膜片鉗實(shí)驗(yàn)是神經(jīng)科學(xué)領(lǐng)域的關(guān)鍵技術(shù),廣泛應(yīng)用于神經(jīng)系統(tǒng)疾病機(jī)制研究、藥物篩選及神經(jīng)環(huán)路解析等核心方向。該實(shí)驗(yàn)的兩大核心難點(diǎn):一是高倍放大場景下精準(zhǔn)
    的頭像 發(fā)表于 02-02 08:17 ?318次閱讀
    應(yīng)用案例 | 40倍鏡下解析小鼠腦部<b class='flag-5'>神經(jīng)元</b>:深視智能sCMOS相機(jī)賦能膜片鉗實(shí)驗(yàn)高效開展

    語音識別IC分類,語音識別芯片的工作原理

    語音識別芯片,也叫語音識別集成電路,是一種集聲音存儲、播放、錄音及語音識別功能于一體的專用芯片。
    的頭像 發(fā)表于 01-14 15:22 ?281次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識別</b>IC分類,<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片的工作原理

    新品發(fā)布】艾為重磅發(fā)布側(cè)AI高性能NPU語音芯片,打造智能語音體驗(yàn)新標(biāo)桿

    數(shù)模龍頭艾為電子全新推出高性能NPU神經(jīng)網(wǎng)絡(luò)智能語音處理芯片:AWA89601,集成音頻專用NPU(神經(jīng)網(wǎng)絡(luò)處理),通過聲音模型訓(xùn)練與NPU硬件結(jié)合,該芯片在AI降噪、AI人聲增強(qiáng)、
    的頭像 發(fā)表于 01-07 18:33 ?426次閱讀
    【<b class='flag-5'>新品</b>發(fā)布】艾為重磅發(fā)布<b class='flag-5'>端</b>側(cè)AI高性能NPU<b class='flag-5'>語音</b>芯片,打造智能<b class='flag-5'>語音</b>體驗(yàn)新標(biāo)桿

    智能語音識別控制是什么?圖形中文編程,多路設(shè)備控制

    智能語音識別控制是一種融合語音識別技術(shù)、物聯(lián)網(wǎng)通信技術(shù)與設(shè)備控制模塊的智能終端
    的頭像 發(fā)表于 12-03 16:35 ?723次閱讀

    語音識別芯片有哪些(語音識別芯片AT680系列)

    在人工智能技術(shù)飛速發(fā)展的今天,語音識別芯片作為人機(jī)交互的重要橋梁,正逐漸成為各類智能設(shè)備不可或缺的核心部件。與傳統(tǒng)的語音芯片不同,語音
    的頭像 發(fā)表于 11-14 17:11 ?1417次閱讀

    神經(jīng)元設(shè)備和腦機(jī)接口有何淵源?

    HUIYING神經(jīng)元設(shè)備的發(fā)展歷程概述神經(jīng)元設(shè)備的發(fā)展經(jīng)歷了從基礎(chǔ)信號檢測到多功能智能集成的演進(jìn)過程。自1920年代腦電圖(EEG)信號首次被發(fā)現(xiàn)以來,
    的頭像 發(fā)表于 11-03 18:03 ?1507次閱讀
    <b class='flag-5'>神經(jīng)元</b><b class='flag-5'>設(shè)備</b>和腦機(jī)接口有何淵源?

    脈沖神經(jīng)元模型的硬件實(shí)現(xiàn)

    實(shí)現(xiàn)。所以現(xiàn)有的大部分 SNN 加速的硬件實(shí)現(xiàn)上都采用LIF模型。 如圖所示,設(shè)計(jì)的 SNN 神經(jīng)核整體架構(gòu)如圖所示。 神經(jīng)核主要由 LIF 神經(jīng)元模塊(LIF_neuron)、控
    發(fā)表于 10-24 08:27

    SNN加速內(nèi)部神經(jīng)元數(shù)據(jù)連接方式

    的數(shù)量級,而且生物軸突的延遲和神經(jīng)元的時(shí)間常數(shù)比數(shù)字電路的傳播和轉(zhuǎn)換延遲要大得多,AER 的工作方式和神經(jīng)網(wǎng)絡(luò)的特點(diǎn)相吻合,所以受生物啟發(fā)的神經(jīng)形態(tài)處理中的NoC或SNN加速
    發(fā)表于 10-24 07:34

    液態(tài)神經(jīng)網(wǎng)絡(luò)(LNN):時(shí)間連續(xù)性與動(dòng)態(tài)適應(yīng)性的神經(jīng)網(wǎng)絡(luò)

    神經(jīng)元,但卻能產(chǎn)生復(fù)雜的行為。受此啟發(fā),與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,LNN旨在通過模擬大腦中神經(jīng)元之間的動(dòng)態(tài)連接來處理信息,這種網(wǎng)絡(luò)能夠順序處理數(shù)據(jù),并且保留了對過去輸
    的頭像 發(fā)表于 09-28 10:03 ?1315次閱讀
    液態(tài)<b class='flag-5'>神經(jīng)</b>網(wǎng)絡(luò)(LNN):時(shí)間連續(xù)性與動(dòng)態(tài)適應(yīng)性的<b class='flag-5'>神經(jīng)</b>網(wǎng)絡(luò)

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+神經(jīng)形態(tài)計(jì)算、類腦芯片

    。是實(shí)現(xiàn)類腦芯片的基本模型。SNN中的神經(jīng)元通過短的電脈沖相互溝通,脈沖之間的時(shí)間間隔起著重要作用。 最有利于硬件實(shí)現(xiàn)的脈沖神經(jīng)元模型是“漏電整合-激發(fā)”模型: 與DNN相比,SNN的優(yōu)勢與區(qū)別
    發(fā)表于 09-17 16:43

    絕對值光柵編碼:工業(yè)精密控制的“數(shù)字神經(jīng)元

    的“數(shù)字神經(jīng)元”,正以毫米級甚至微米級的定位能力,重新定義精密制造的邊界。 突破傳統(tǒng):從“相對計(jì)數(shù)”到“絕對定位”的革命 傳統(tǒng)增量式編碼通過脈沖計(jì)數(shù)實(shí)現(xiàn)位置反饋,但存在致命缺陷:斷電后需重新校準(zhǔn)零點(diǎn),抗干擾能力
    的頭像 發(fā)表于 08-19 08:41 ?673次閱讀
    絕對值光柵編碼<b class='flag-5'>器</b>:工業(yè)精密控制的“數(shù)字<b class='flag-5'>神經(jīng)元</b>”

    新一代神經(jīng)擬態(tài)類腦計(jì)算機(jī)“悟空”發(fā)布,神經(jīng)元數(shù)量超20億

    擬態(tài)芯片的類腦計(jì)算機(jī),神經(jīng)元數(shù)量接近獼猴大腦規(guī)模,典型運(yùn)行狀態(tài)下功耗僅約2000瓦。傳統(tǒng)計(jì)算機(jī)處理人腦任務(wù)需高達(dá)100兆瓦功耗,相比之下“悟空”低功耗優(yōu)勢顯著。 ? ? 硬件上,“悟空”由15臺刀片式神經(jīng)擬態(tài)類腦服務(wù)組成,每臺
    的頭像 發(fā)表于 08-06 07:57 ?7692次閱讀
    新一代<b class='flag-5'>神經(jīng)</b>擬態(tài)類腦計(jì)算機(jī)“悟空”發(fā)布,<b class='flag-5'>神經(jīng)元</b>數(shù)量超20億

    廣和通發(fā)布自研側(cè)語音識別大模型FiboASR

    7月,全球領(lǐng)先的無線通信模組及AI解決方案提供商廣和通,發(fā)布其自主研發(fā)的語音識別大模型FiboASR。該模型專為側(cè)設(shè)備上面臨的面對面實(shí)時(shí)對話及多人會(huì)議場景深度優(yōu)化,在低延遲
    的頭像 發(fā)表于 08-04 11:43 ?1645次閱讀

    無刷直流電機(jī)單神經(jīng)元自適應(yīng)智能控制系統(tǒng)

    摘要:針對無刷直流電機(jī)(BLDCM)設(shè)計(jì)了一種可在線學(xué)習(xí)的單神經(jīng)元自適應(yīng)比例-積分-微分(PID)智能控制,通過有監(jiān)督的 Hebb學(xué)習(xí)規(guī)則調(diào)整權(quán)值,每次采樣根據(jù)反饋誤差對神經(jīng)元權(quán)值進(jìn)行調(diào)整,以實(shí)現(xiàn)
    發(fā)表于 06-26 13:36

    無刷直流電機(jī)單神經(jīng)元PI控制的設(shè)計(jì)

    摘要:研究了一種基于專家系統(tǒng)的單神經(jīng)元PI控制,并將其應(yīng)用于無刷直流電機(jī)調(diào)速系統(tǒng)中??刂?b class='flag-5'>器實(shí)現(xiàn)了PI參數(shù)的在線調(diào)整,在具有PID控制良好動(dòng)態(tài)性能的同時(shí),減少微分項(xiàng)對系統(tǒng)穩(wěn)態(tài)運(yùn)行時(shí)的
    發(fā)表于 06-26 13:34