91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌手機重磅推出了一款端到端、全神經(jīng)、基于設備的語音識別器

電子工程師 ? 來源:lp ? 2019-03-28 14:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

識別延遲一直是設備端語音識別技術(shù)需要解決的重大問題,谷歌手機今天更新了手機端的語音識別技術(shù)——Gboard,重磅推出了一款端到端、全神經(jīng)、基于設備的語音識別器,支持Gboard中的語音輸入。通過谷歌最新的(RNN-T)技術(shù)訓練的模型,該模型精度超過CTC,并且只有80M,可直接在設備上運行。

2012年,語音識別研究獲得新突破——深度學習可以提高識別的準確性,最早探索這項技術(shù)的產(chǎn)品便是谷歌語音搜索了。這標志這語音識別革命的開始,從深層神經(jīng)網(wǎng)絡(DNNs)到遞歸神經(jīng)網(wǎng)絡(RNNs),長短期記憶網(wǎng)絡(LSTMs),卷積網(wǎng)絡(CNNs)等等,新的架構(gòu)和開發(fā)質(zhì)量每年都在快速提升。在發(fā)展過程中,識別延遲仍然是攻關(guān)難點。

今天,谷歌官方宣布,推出一款端到端、全神經(jīng)、基于設備的語音識別器,支持Gboard中的語音輸入。

在谷歌最近的論文“移動設備的流媒體端到端語音識別”中,提出了一種使用RNN傳感器(RNN-T)技術(shù)訓練的模型,并且可以在手機上實現(xiàn)。這意味著即使你的手機網(wǎng)絡延遲,甚至處于離線狀態(tài),新的識別器也始終可用。

谷歌論文下載鏈接:

https://arxiv.org/abs/1811.06621

該模型以單詞級別運行,也就是說,當你說話時,它會逐個字符地輸出單詞,就像是你自己在敲鍵盤一樣。

語音識別的歷史

最初,語音識別系統(tǒng)由這樣幾個部分組成,將音頻片段(通常為10毫秒幀)映射到音素的聲學模型,將音素連接在一起形成單詞的發(fā)音模型,語言模型給出相應的短語。這些組件在早期系統(tǒng)中都是相互獨立的。

大約在2014年,研究人員開始專注于訓練單個神經(jīng)網(wǎng)絡,將輸入音頻波形直接映射到輸出句子。

也就是說,通過給定一系列音頻特征,生成一系列單詞或字形來建立學習模型,這種seq2seq模型的出現(xiàn)促進了“attention-based ”和“l(fā)isten-attend-spell” 模型的進展。

這些模型期望在識別準確度上做出突破,但其需要通檢查整個輸入序列來工作,并且在輸入時不允許輸出,這就很難實現(xiàn)實時語音轉(zhuǎn)錄了。

幾乎同一時間,一個被稱為CTC的獨立技術(shù)出現(xiàn)了,成功解決了識別延時的問題,采用CTC技術(shù)也就成為邁向RNN-T架構(gòu)最重要一步。

遞歸神經(jīng)網(wǎng)絡傳感器

RNN-Ts是一種非注意機制的seq2seq模型。與大多數(shù)seq2seq模型(通常需要處理整個輸入序列(在我們的例子中是波形)以產(chǎn)生輸出(句子))不同,RNN-T可以連續(xù)處理輸入樣本和流輸出符號,這種屬性對于語音識別尤其友好。在實現(xiàn)過程中,輸出符號是字母表的字符。RNN-T識別器會逐個輸出字符,并在適當?shù)奈恢幂斎肟崭瘛Kㄟ^反饋循環(huán)執(zhí)行此操作,該循環(huán)將模型預測的符號反饋到其中,以預測下一個符號,如下圖所示。

訓練這樣一只有效運行的模型已經(jīng)很困難,并且隨著我們開發(fā)的進展——進一步將單詞錯誤率降低了5%,模型變得更加計算密集。為了解決這個問題,我們開發(fā)了并行實現(xiàn),使得RNN-T損失功能可以在Google的高性能CloudTPU v2硬件上大批量運行。這在訓練中實現(xiàn)了約3倍的加速。

離線識別

在傳統(tǒng)的語音識別引擎中,我們上面描述的聲學、發(fā)音和語言模型會被“組合”成一個大的圖搜索算法。當語音波形被呈現(xiàn)給識別器時,“解碼器”在給定輸入信號的情況下,會在該圖中搜索相似度最高的路徑,并讀出該路徑所采用的字序列。

通常,解碼器采用基礎(chǔ)模型的有限狀態(tài)傳感器(FST)表示。然而,盡管有復雜的解碼技術(shù),圖搜索算法仍然非常之大,以我們的模型為例,可以達到了2GB。如此大的模型根本無法在移動設備上運行,因此這種方法需要在連線時才能正常工作。

為了提高語音識別的有效性,我們試圖通過直接在設備上運行新模型,來避免通信網(wǎng)絡的延遲和不可靠性。因此,我們的端到端方法不需要在大型解碼器圖上進行搜索。

相反,只通過單個神經(jīng)網(wǎng)絡的波束搜索進行。我們訓練的RNN-T提供與傳統(tǒng)的基于服務器的模型相同的精度,但只有450MB,可以更加智能地使用參數(shù)和打包信息。然而,即使在今天的智能手機上,450MB也不小了,并且,通過如此龐大的網(wǎng)絡傳輸信號依然很慢。

進一步的,我們通過使用參數(shù)量化和混合內(nèi)核技術(shù)來縮小模型,我們在2016年開發(fā)了這一技術(shù)并在TensorFlow精簡版庫上公開提供了模型優(yōu)化工具包。

模型量化相對于訓練的浮點模型提供4倍壓縮,在運行時提供4倍加速,使我們的RNN-T比單核上的實時語音運行得更快。壓縮后,我們模型的最終大小達到了80MB。

終于,當當當,我們的新型設備端神經(jīng)網(wǎng)絡Gboard語音識別器上線了。最初的版本,我們僅提供英語語言,適配所有Pixel手機。鑒于行業(yè)趨勢,隨著專業(yè)硬件和算法改進的融合,我們希望這里介紹的技術(shù)可以很快用于更多語言和更廣泛的應用領(lǐng)域。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6255

    瀏覽量

    111667
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1812

    瀏覽量

    116144
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5600

    瀏覽量

    124503

原文標題:全離線,無延遲!谷歌手機更新語音識別系統(tǒng),模型大小僅80M

文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    為什么段式自動駕駛很難落地?

    ,將感知、預測、規(guī)控等任務拆分為相互獨立的子系統(tǒng)。然而,隨著深度學習技術(shù)的突破,的新興技術(shù)架構(gòu)開始占據(jù)討論的中心。 在這架構(gòu)中,
    的頭像 發(fā)表于 03-08 09:44 ?1714次閱讀
    為什么<b class='flag-5'>一</b>段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛很難落地?

    解鎖仿真新可能 :全新 aiSim 6 即將發(fā)布

    前言隨著自動駕駛從學術(shù)探索走向規(guī)模化應用,無論是特斯拉FSD神經(jīng)模擬、Waymo基于DeepMindGenie3的世界模型,還是國內(nèi)
    的頭像 發(fā)表于 03-06 17:33 ?1178次閱讀
    解鎖<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>仿真新可能 :全新 aiSim 6 即將發(fā)布

    自動駕駛為什么會出現(xiàn)黑盒現(xiàn)象?

    在自動駕駛領(lǐng)域,(End-to-End)是指從感知環(huán)境的原始數(shù)據(jù)車輛實際控制指令,全部交給個統(tǒng)
    的頭像 發(fā)表于 02-20 09:25 ?9417次閱讀
    自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>為什么會出現(xiàn)黑盒現(xiàn)象?

    晶晨攜手谷歌,助力側(cè)大模型Gemini的硬件落地

    電子發(fā)燒友網(wǎng)報道 在科技飛速發(fā)展的當下,側(cè)智能技術(shù)正以前所未有的速度滲透各個領(lǐng)域。1月28日,晶晨股份透露,公司與谷歌有著長達十余年的深度合作基礎(chǔ)。作為谷歌
    的頭像 發(fā)表于 01-29 10:44 ?2185次閱讀

    與模塊化自動駕駛的數(shù)據(jù)標注要求有何不同?

    核心的新路徑正迅速崛起,試圖通過個統(tǒng)神經(jīng)網(wǎng)絡直接完成從傳感輸入駕駛指令輸出的全過程。這種架構(gòu)上的根本差異,也對數(shù)據(jù)標注提
    的頭像 發(fā)表于 01-27 09:48 ?974次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>與模塊化自動駕駛的數(shù)據(jù)標注要求有何不同?

    分享一款高端離線語音識別IC AT680系列

    離線語音識別IC的本地處理帶來極速響應,識別指令可在毫秒級完成,用戶體驗流暢無延遲。除此之外,離線語音識別IC還有
    的頭像 發(fā)表于 12-30 16:19 ?312次閱讀

    智駕模擬軟件推薦——為什么選擇Keymotek的aiSim?

    隨著自動駕駛技術(shù)的快速發(fā)展,車企和科技公司對于模擬測試平臺的需求越來越強。從L2/ADASL4/L5等級的自動駕駛,虛擬模擬已經(jīng)成為其中的關(guān)鍵環(huán)。特別是對于「」智駕(
    的頭像 發(fā)表于 11-18 11:35 ?869次閱讀

    自動駕駛中“段式”和“二段式”有什么區(qū)別?

    [首發(fā)于智駕最前沿微信公眾號]最近有小伙伴提問,段式和二段式
    的頭像 發(fā)表于 10-24 09:03 ?1289次閱讀
    自動駕駛中“<b class='flag-5'>一</b>段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”和“二段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”有什么區(qū)別?

    語音交互數(shù)據(jù) 精準賦能語音大模型進階

    模型在多輪對話、噪聲環(huán)境及語義理解方面表現(xiàn)不佳。 相較于傳統(tǒng)數(shù)據(jù)集僅關(guān)注語音-文本的單點轉(zhuǎn)寫,語音交互數(shù)據(jù)集強調(diào)在真實多輪對話場景下的
    的頭像 發(fā)表于 09-11 17:17 ?791次閱讀

    當經(jīng)典IP撞上AI技術(shù):利爾達助力躍然創(chuàng)新推出全球首AI互動玩具

    //當孩子們手中的奧特曼玩具不僅能發(fā)光發(fā)聲,還能真正智能對話、情感陪伴,傳統(tǒng)的玩具行業(yè)正經(jīng)歷場前所未有的技術(shù)革命……今日,AI玩具領(lǐng)軍企業(yè)躍然創(chuàng)新(Haivivi)推出全球首搭載
    的頭像 發(fā)表于 08-26 17:37 ?2014次閱讀
    當經(jīng)典IP撞上AI技術(shù):利爾達助力躍然創(chuàng)新<b class='flag-5'>推出</b>全球首<b class='flag-5'>款</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>AI互動玩具

    廣和通發(fā)布自研側(cè)語音識別大模型FiboASR

    7月,全球領(lǐng)先的無線通信模組及AI解決方案提供商廣和通,發(fā)布其自主研發(fā)的語音識別大模型FiboASR。該模型專為側(cè)設備上面臨的面對面實時對話及多人會議場景深度優(yōu)化,在低延遲
    的頭像 發(fā)表于 08-04 11:43 ?1676次閱讀

    為什么自動駕駛大模型有黑盒特性?

    、激光雷達數(shù)據(jù))映射到控制輸出(如方向盤轉(zhuǎn)角、加速度、制動等),以深度神經(jīng)網(wǎng)絡為核心,打通了從視覺駕駛行為的完整鏈條。它也代表了自動駕駛從“規(guī)則驅(qū)動”向“數(shù)據(jù)驅(qū)動”的躍遷,展現(xiàn)了極高的潛力。當然這種結(jié)構(gòu)也天然地帶來了
    的頭像 發(fā)表于 07-04 16:50 ?948次閱讀
    為什么自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型有黑盒特性?

    為何成為各車企智駕布局的首要選擇?

    算法實現(xiàn)輸入輸出的整體映射,技術(shù)通過將原始傳感數(shù)據(jù)直接輸入單
    的頭像 發(fā)表于 06-07 11:52 ?781次閱讀
    為何<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>成為各車企智駕布局的首要選擇?

    文帶你厘清自動駕駛架構(gòu)差異

    大模型則嘗試直接將傳感輸入映射到車輛控制指令上,實現(xiàn)聯(lián)合優(yōu)化。雖同為
    的頭像 發(fā)表于 05-08 09:07 ?1105次閱讀
    <b class='flag-5'>一</b>文帶你厘清自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架構(gòu)差異

    自動駕駛中基于規(guī)則的決策和大模型有何區(qū)別?

    在自動駕駛架構(gòu)的選擇上,也經(jīng)歷了從感知、決策控制、執(zhí)行的三段式架構(gòu)到現(xiàn)在火熱的大模型,尤其是在2024年特斯拉推出FSD V12后,各車企更是陸續(xù)
    的頭像 發(fā)表于 04-13 09:38 ?3805次閱讀
    自動駕駛中基于規(guī)則的決策和<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型有何區(qū)別?