91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

回顧語音識(shí)別技術(shù)優(yōu)勢(shì)及產(chǎn)品落地之路的應(yīng)用發(fā)展

訊飛開放平臺(tái) ? 來源:djl ? 作者:汪艦 ? 2019-10-08 08:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

什么是語音識(shí)別

語音識(shí)別是以語音為研究對(duì)象,通過語音信號(hào)處理和模式識(shí)別讓機(jī)器自動(dòng)識(shí)別和理解人類口述的語言。

語音識(shí)別技術(shù)歷史發(fā)展進(jìn)程

語音識(shí)別的研究可以追溯到20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng),它是第一個(gè)可以識(shí)別十個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)。

但真正取得實(shí)質(zhì)性進(jìn)展,并將它作為一個(gè)重要的課題開展研究則是在60年代末70年代初。計(jì)算機(jī)技術(shù)的發(fā)展為語音識(shí)別的實(shí)現(xiàn)提供了硬件和軟件的可能,語音信號(hào)線性預(yù)測(cè)編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù)的提出,有效解決了語音信號(hào)的特征提取和不等長(zhǎng)匹配問題。這一時(shí)期語音識(shí)別主要基于模板匹配原理,研究的領(lǐng)域局限在特定人,小詞匯表的孤立詞識(shí)別,實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和DTW技術(shù)的特定人孤立詞語音識(shí)別系統(tǒng);同時(shí)提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。

80年代HMM和ANN在語音識(shí)別中成功應(yīng)用。李開復(fù)實(shí)現(xiàn)了第一個(gè)基于HMM的大詞匯量語音識(shí)別系統(tǒng)Sphinx。90年代隨著多媒體時(shí)代的來臨,大量企業(yè)開始投入巨資語音識(shí)別系統(tǒng)逐漸從實(shí)驗(yàn)室走向?qū)嵱谩?0年代以來大數(shù)據(jù)、漣漪效應(yīng)和深度神經(jīng)網(wǎng)絡(luò)帶來了語音識(shí)別爆發(fā)。

語音識(shí)別的過程

首先是聲音的輸入,輸入的音頻可以是實(shí)時(shí)的來自于麥克風(fēng),也可以來自于現(xiàn)成的音頻文件。然后是音頻信號(hào)的預(yù)處理,包括降噪、回聲消除、端點(diǎn)檢查和模數(shù)轉(zhuǎn)換等等。特征提取,就是從音頻信號(hào)中提取出對(duì)識(shí)別有用的信息,將這些信息拿到聲學(xué)模型中去匹配,會(huì)得到這些音頻信號(hào)的發(fā)音信息,比如這里例子中的“科大訊飛”四個(gè)字的發(fā)音信息。然后把這些發(fā)音信息拿到語言模型中匹配,找出最大概率的發(fā)這四個(gè)音的漢字。這樣一個(gè)識(shí)別的過程就完成了。

這過程中比較核心的部分就是聲學(xué)模型和語言模型的匹配和處理,HMM(隱馬爾科夫模型)和深度神經(jīng)網(wǎng)絡(luò)就是在這里發(fā)揮作用的。

由于HMM只需要少量的數(shù)據(jù)就能訓(xùn)練出一個(gè)可用的模型,所以在上世界80、90年代,HMM技術(shù)在語音識(shí)別領(lǐng)域幾乎是處于統(tǒng)治地位的,直到移動(dòng)互聯(lián)網(wǎng)還有大數(shù)據(jù)技術(shù)的爆發(fā),數(shù)據(jù)的來源已經(jīng)完全不是問題的情況下,深度神經(jīng)網(wǎng)絡(luò)才逐漸讓HMM退居二線。下面我們以HMM為例,講解一下它在語音識(shí)別中是如何發(fā)揮作用的。

HMM淺析

首先和大家分享一個(gè)我在網(wǎng)上看到的關(guān)于異地戀的故事:小明有個(gè)女朋友在北京上學(xué)。

我們來給出一些假設(shè)條件,比如女朋友只有購(gòu)物散步和宅家里這三種活動(dòng)(這些叫可觀察到的狀態(tài)),天氣也只有多云晴天和下雨三種(這些叫隱藏的狀態(tài),就是小明無法直接觀察到的狀態(tài)),如果第一天是多云的情況下,第二天還是多云的概率是0.5、晴天的概率0.3、下雨的概率0.2;再比如今天是晴天的情況下,女朋友去購(gòu)物的概率是0.5,去散步的概率0.3,宅家里的概率0.2。那么所有上述的假設(shè)條件合在一起其實(shí)就形成了一個(gè)模型,這個(gè)模型就叫做HMM模型。

這三個(gè)問題在很早以前就有很多算法大師給出了解法,也就是說這些看起來很難解的問題對(duì)計(jì)算機(jī)來說都很快解出來。

那么這些和語音識(shí)別到底有什么關(guān)系?我將第二個(gè)問題和第三個(gè)問題抽象一下。

大家看這張PPT,左邊這個(gè)部分就對(duì)應(yīng)剛剛的第二個(gè)問題:已知模型參數(shù)和女朋友的活動(dòng)序列(就是可觀察狀態(tài)鏈),來求最大概率的隱藏狀態(tài)鏈(也就是這三天天氣的變化序列)。

而語音識(shí)別也是已知一個(gè)HMM和一段我們可觀察到的波形,來求這段音頻包含的最大概率的隱藏狀態(tài),這里隱藏狀態(tài)鏈指的就是識(shí)別結(jié)果中的文字。

對(duì)于第三個(gè)問題,由于缺少了一個(gè)已知的HMM模型,所以我們需要先利用已知的歷史數(shù)據(jù)來訓(xùn)練一個(gè)可用的模型,然后再來求識(shí)別結(jié)果。

同樣一個(gè)模型,同樣一套模型參數(shù),各個(gè)狀態(tài)轉(zhuǎn)化和映射概率都沒有變,我們把可觀察狀態(tài)換成語音識(shí)別的輸入波形(或者說是波形特征),把隱藏狀態(tài)換成語音識(shí)別的輸出(也就是文字結(jié)果),就會(huì)發(fā)現(xiàn)這個(gè)HMM用來做語音識(shí)別簡(jiǎn)直太合適啦。

比如這里的例子,這樣三個(gè)連續(xù)的波形隱含的文字到底是“是十四”還是“四十四”,我們只需要分別把它們的概率算出來,哪個(gè)概率大我們就認(rèn)為是哪個(gè)結(jié)果。對(duì)于HMM模型未知的情況下,我們可以利用帶標(biāo)注的數(shù)據(jù)按照鮑姆-韋爾奇算法訓(xùn)練一個(gè)就可以了,足夠的數(shù)據(jù)就能訓(xùn)練出趨于完美的模型。

注意,這個(gè)例子中我們并沒有區(qū)分聲學(xué)模型和語言模型,而是將兩者放在一起抽象出來一個(gè)大的模型,將波形直接映射成文字,而省去類似拼音發(fā)音的中間結(jié)果。事實(shí)上HMM也的確是既可以做聲學(xué)模型,也可以做語言模型。

訊飛開放平臺(tái)語音識(shí)別

本節(jié)公開課說的我們平臺(tái)的語音識(shí)別是專指語音聽寫的功能,就是將語音轉(zhuǎn)化成文字的功能,而和識(shí)別相關(guān)的命令詞識(shí)別和語義理解,會(huì)在后面的課程中為大家講解。

個(gè)性化識(shí)別指的是語音識(shí)別系統(tǒng)具備自動(dòng)學(xué)習(xí)并適應(yīng)用戶使用習(xí)慣的能力,你用的越多,它越懂你。

例如語言模型的個(gè)性化,我們可以將一些不容易識(shí)別的生僻的詞,比如人名地名等上傳到給我們?cè)贫耍覀兏鶕?jù)你上傳的信息有針對(duì)性的優(yōu)化你的語言模型,提高這些詞的識(shí)別率。后面會(huì)有視頻給大家演示這樣的效果。

目前我們訊飛的識(shí)別支持中文和英文,還支持中文的21種方言,其中粵語和四川話是免費(fèi)開放就可以使用的,其他的方言需要通過商務(wù)合作后才能使用。

離線聽寫也是有的,在訊飛輸入法和訊飛語記app中都已經(jīng)使用了。大家要開發(fā)Android平臺(tái)的應(yīng)用可以借助語記APP提供離線聽寫能力,來讓你自己的應(yīng)用也具有離線聽寫的功能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語音識(shí)別
    +關(guān)注

    關(guān)注

    39

    文章

    1812

    瀏覽量

    116100
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    電容隔離技術(shù)優(yōu)勢(shì)解析與乾鴻微全系列數(shù)字隔離器產(chǎn)品指南

    電容隔離技術(shù)優(yōu)勢(shì)解析與乾鴻微全系列數(shù)字隔離器產(chǎn)品指南
    的頭像 發(fā)表于 01-23 16:43 ?234次閱讀
    電容隔離<b class='flag-5'>技術(shù)優(yōu)勢(shì)</b>解析與乾鴻微全系列數(shù)字隔離器<b class='flag-5'>產(chǎn)品</b>指南

    有源晶振的核心技術(shù)優(yōu)勢(shì)與應(yīng)用價(jià)值?

    有源晶振的核心技術(shù)優(yōu)勢(shì)與應(yīng)用價(jià)值? 在高速發(fā)展的數(shù)字時(shí)代,精準(zhǔn)、穩(wěn)定的時(shí)鐘信號(hào)是各類電子系統(tǒng)正常運(yùn)行的“心臟”。有源晶振(Active Crystal Oscillator)作為核心時(shí)鐘源之一,憑借
    的頭像 發(fā)表于 01-20 12:47 ?185次閱讀
    有源晶振的核心<b class='flag-5'>技術(shù)優(yōu)勢(shì)</b>與應(yīng)用價(jià)值?

    語音識(shí)別IC分類,語音識(shí)別芯片的工作原理

    語音識(shí)別芯片,也叫語音識(shí)別集成電路,是一種集聲音存儲(chǔ)、播放、錄音及語音識(shí)別功能于一體的專用芯片。
    的頭像 發(fā)表于 01-14 15:22 ?268次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>IC分類,<b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>芯片的工作原理

    Neway微波產(chǎn)品技術(shù)領(lǐng)航,創(chuàng)造卓越價(jià)值

    ,助客戶快速推出產(chǎn)品,提升競(jìng)爭(zhēng)力。l 技術(shù)創(chuàng)新,滿足市場(chǎng)變化經(jīng)驗(yàn)豐富團(tuán)隊(duì)具備全流程能力,持續(xù)創(chuàng)新推出新產(chǎn)品。正在研發(fā)更高頻、低損耗產(chǎn)品,鞏固市場(chǎng)領(lǐng)先地位。Neway以
    發(fā)表于 12-04 09:17

    語音識(shí)別芯片有哪些(語音識(shí)別芯片AT680系列)

    在人工智能技術(shù)飛速發(fā)展的今天,語音識(shí)別芯片作為人機(jī)交互的重要橋梁,正逐漸成為各類智能設(shè)備不可或缺的核心部件。與傳統(tǒng)的語音芯片不同,
    的頭像 發(fā)表于 11-14 17:11 ?1403次閱讀

    廣州唯創(chuàng)電子WTK6900H-24SS語音識(shí)別芯片:智能語音控制賦能臺(tái)燈創(chuàng)新應(yīng)用 | 語音IC廠家

    的WTK6900H-24SS(S003)語音識(shí)別芯片,憑借其卓越的語音識(shí)別能力和豐富的功能特性,為智能臺(tái)燈的創(chuàng)新應(yīng)用提供了強(qiáng)有力的技術(shù)支撐。
    的頭像 發(fā)表于 11-05 09:20 ?809次閱讀
    廣州唯創(chuàng)電子WTK6900H-24SS<b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>芯片:智能<b class='flag-5'>語音</b>控制賦能臺(tái)燈創(chuàng)新應(yīng)用 | <b class='flag-5'>語音</b>IC廠家

    廣州唯創(chuàng)電子WTK6900H-32N語音識(shí)別芯片:智能語音控制賦能LED燈帶創(chuàng)新應(yīng)用 | 語音IC廠家

    芯片,憑借其卓越的性能和精準(zhǔn)的識(shí)別能力,在LED燈帶控制領(lǐng)域展現(xiàn)出強(qiáng)大的應(yīng)用價(jià)值,為智能照明系統(tǒng)帶來了革命性的創(chuàng)新突破。一、核心技術(shù)優(yōu)勢(shì)1.1高性能語音識(shí)別引擎WT
    的頭像 發(fā)表于 11-04 08:53 ?699次閱讀
    廣州唯創(chuàng)電子WTK6900H-32N<b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>芯片:智能<b class='flag-5'>語音</b>控制賦能LED燈帶創(chuàng)新應(yīng)用 | <b class='flag-5'>語音</b>IC廠家

    廣州唯創(chuàng)電子WTK6900H-32N離線語音識(shí)別芯片:精準(zhǔn)遠(yuǎn)場(chǎng)識(shí)別引領(lǐng)智能電風(fēng)扇創(chuàng)新 | 語音IC廠家

    隨著人工智能技術(shù)的快速發(fā)展,語音交互正在成為智能家居領(lǐng)域的重要入口。廣州唯創(chuàng)電子作為專業(yè)的語音IC廠家,推出的WTK6900H-32N離線語音
    的頭像 發(fā)表于 10-31 09:03 ?703次閱讀
    廣州唯創(chuàng)電子WTK6900H-32N離線<b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>芯片:精準(zhǔn)遠(yuǎn)場(chǎng)<b class='flag-5'>識(shí)別</b>引領(lǐng)智能電風(fēng)扇創(chuàng)新 | <b class='flag-5'>語音</b>IC廠家

    廣州唯創(chuàng)電子WTK6900H-24SS語音識(shí)別芯片:重新定義智能馬桶交互體驗(yàn)

    實(shí)現(xiàn)了創(chuàng)新突破,為用戶帶來更加便捷、衛(wèi)生的智能衛(wèi)浴體驗(yàn)。核心技術(shù)優(yōu)勢(shì),打造卓越識(shí)別體驗(yàn)WTK6900H-24SS聲音識(shí)別IC集多項(xiàng)先進(jìn)技術(shù)于一身,為智能馬桶應(yīng)用提供
    的頭像 發(fā)表于 10-28 09:00 ?609次閱讀
    廣州唯創(chuàng)電子WTK6900H-24SS<b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>芯片:重新定義智能馬桶交互體驗(yàn)

    一款工業(yè)級(jí)MP3語音芯片介紹

    ,憑借其出色的性能與穩(wěn)定性,為娛樂設(shè)備提供了專業(yè)級(jí)的音頻解決方案。(廣州語創(chuàng)專業(yè)語音芯片方案供應(yīng)商) 核心技術(shù)優(yōu)勢(shì) 1. 高速響應(yīng)與流暢體驗(yàn) YC686具備業(yè)界領(lǐng)先的指令響應(yīng)速度: · 曲目播放響應(yīng)
    發(fā)表于 09-08 10:33

    「龍智×Perforce」研討會(huì)干貨回顧:Perforce工具鏈在汽車行業(yè)的應(yīng)用與中國(guó)本土化落地實(shí)踐

    研討會(huì)干貨回顧來了!本次會(huì)議不僅帶來了Perforce工具在汽車軟件研發(fā)中的技術(shù)優(yōu)勢(shì)與全球價(jià)值,更輸出了龍智“驗(yàn)證-賦能-護(hù)航”的本土落地三部曲。推薦給每一位汽車軟件人~
    的頭像 發(fā)表于 08-21 14:35 ?775次閱讀
    「龍智×Perforce」研討會(huì)干貨<b class='flag-5'>回顧</b>:Perforce工具鏈在汽車行業(yè)的應(yīng)用與中國(guó)本土化<b class='flag-5'>落地</b>實(shí)踐

    語音識(shí)別---大家怎么看呢?

    語音識(shí)別是一門交叉學(xué)科。近二十年來,語音識(shí)別技術(shù)取得顯著進(jìn)步,開始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來10年內(nèi),
    發(fā)表于 08-09 10:54

    數(shù)字功放的崛起;技術(shù)優(yōu)勢(shì)產(chǎn)品對(duì)比解析

    數(shù)字功放的崛起;技術(shù)優(yōu)勢(shì)產(chǎn)品對(duì)比解析
    的頭像 發(fā)表于 07-18 17:59 ?1410次閱讀
    數(shù)字功放的崛起;<b class='flag-5'>技術(shù)優(yōu)勢(shì)</b>與<b class='flag-5'>產(chǎn)品</b>對(duì)比解析

    普強(qiáng)信息入選2024語音識(shí)別技術(shù)公司TOP30榜單

    企業(yè)數(shù)字化升級(jí),這一榮譽(yù)不僅體現(xiàn)了普強(qiáng)在語音交互、語義理解、多語種識(shí)別等核心技術(shù)上的領(lǐng)先優(yōu)勢(shì),更是對(duì)普強(qiáng)自主研發(fā)的端到端語音
    的頭像 發(fā)表于 04-18 17:25 ?1233次閱讀

    廠家芯資訊|廣州唯創(chuàng)電子語音識(shí)別芯片技術(shù)解析

    ?一、公司及產(chǎn)品概述作為國(guó)內(nèi)領(lǐng)先的語音芯片研發(fā)企業(yè),深耕語音技術(shù)領(lǐng)域25年,其產(chǎn)品以高穩(wěn)定性、低功耗和多場(chǎng)景適應(yīng)性著稱。公司推出的
    的頭像 發(fā)表于 03-19 08:46 ?827次閱讀
    廠家芯資訊|廣州唯創(chuàng)電子<b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>芯片<b class='flag-5'>技術(shù)</b>解析