自動語音辨認技術(ASR,Automatic Speech Recognition)是一種經(jīng)過讓機器經(jīng)過辨認和了解的過程,把人類的語音信號轉(zhuǎn)變?yōu)橄鄳谋镜募夹g。我們先來看看語音辨認的歷史,其實早在計算機創(chuàng)造之前,有關ASR技術的理念就曾經(jīng)降生了,而早期的聲碼器就能夠被視為是語音辨認及合成的雛形。而1920年代消費的"Radio Rex"玩具狗,可能是早的語音辨認器,當這只狗的名字被召喚的時分,它可以從底座上彈出來。這么看來論輩分它是阿爾法狗的爺爺……但毫無疑問60年代計算機的開展推進了語音辨認技術技術,這其中重要的一個里程碑就是動態(tài)規(guī)劃技術(DP)和線性預測剖析技術(LP),后者又開展出了更成熟的動態(tài)時間歸正技術(DTW),包括矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。但這些還都只是單調(diào)又晦澀的算法,換句話說,工程師看到這些玩意也一頭霧水,基本沒方法疾速在應用到理論里。所以在80年代時,著名的AT&T Bell實驗室經(jīng)過努力,把本來深奧無比的HMM純數(shù)學模型工程化,為應用開發(fā)打下了重要的基石。到90年代時,深度神經(jīng)網(wǎng)絡技術的打破性開展,終于把語音辨認技術本來的難關攻破了。所以在我們會發(fā)現(xiàn),從21世紀后語音辨認技術的開展就疾速加快了。其實看起來高大上的語音辨認技術,原理并沒有多么復雜。不管是微軟家的Cortana、三星家的S-voice蘋果家的Siri,還是國內(nèi)一些獨立做語音辨認的比方訊飛、Rokid,在原理在實質(zhì)上沒有幾差別:就是語音輸入后,停止特征提取,將提取的特征值放進模型庫里,再不時地停止鍛煉和匹配,終解碼得到結果。
假如要細說的話就比擬復雜了,比方模型庫中又分為聲學模型和言語模型。其中言語模型是依據(jù)不同品種的言語,對詞串停止統(tǒng)計建模,目前普遍采用的是基于(n-1)階馬爾可夫鏈統(tǒng)計的n元語法模型。這里細致說下聲學建模吧。首先經(jīng)過前端特征提取取得聲學特征,再進一步對聲學特征停止統(tǒng)計建模。建模運用到的貝葉斯統(tǒng)計建??蚣?,也就是大后驗概率決策原則。這里算法這種深奧的東西就不說了,除非深度開發(fā),否則直接套用就行了,我本人也是博古通今,還是念書的時分學的。說說提取聲學特征該如何完成:當語音輸入之后,首先停止模電轉(zhuǎn)換,將模仿信號轉(zhuǎn)變?yōu)?a target="_blank">數(shù)字信號,再停止靜音切除去掉無關噪音,然后停止分幀。將此時的信號分紅一幀一幀之后(每一幀并不是獨立存在的而是相互關聯(lián)的),還要停止一系列的信號處置,包括預加重、加窗之后,再停止FFT變換之后,再經(jīng)過Mel參數(shù)的濾波和取對數(shù)、離散余弦變換等一系列算法處置后,能夠停止用梅爾頻率倒譜系數(shù)(MFCC)停止特征提取,得到聲學特征。覺得越說越復雜了……后面簡單點說吧。前面說了言語模型,而聲學模型就是將聲學特征統(tǒng)計建模后得到的。得到了模型庫之后就能夠停止模型鍛煉和形式匹配了。所謂模型鍛煉就是指依照一定的原則,從大量已知語音形式中獲取一個具特征的模型參數(shù)。而形式匹配則相反,是依據(jù)一定原則,將未知語音形式與模型庫中的某一個模型取得佳匹配后的解碼過程又能夠分紅動態(tài)解碼網(wǎng)絡和靜態(tài)解碼網(wǎng)絡兩種:動態(tài)網(wǎng)絡會編譯一個狀態(tài)網(wǎng)絡并構成搜索空間,把單詞轉(zhuǎn)換成一個個的音素后將其依照語序拆分紅狀態(tài)序列,再依據(jù)音素上下文分歧性準繩將狀態(tài)序列停止銜接。而靜態(tài)網(wǎng)絡普通是針對一些特殊詞(孤立詞)的辨認網(wǎng)絡,它的構造就簡單多了:先將每條特殊詞擴展成HMM狀態(tài)序列,然后再計算得分,選擇得分大的作為辨認輸出結果。由于靜態(tài)網(wǎng)絡是依據(jù)聲學概率計算權重,不需求查詢言語模型概率,因而解碼速度很快。 這樣的一個流程大致上就是語音辨認技術的主要原理。
-
語音識別
+關注
關注
39文章
1812瀏覽量
116064
發(fā)布評論請先 登錄
華秋輸出的GERBER別的軟件無法正確識別
語音識別芯片有哪些(語音識別芯片AT680系列)
什么是離線語音識別芯片(離線語音識別芯片有哪些優(yōu)點)
如何選擇合適的語音識別芯片型號
廣州唯創(chuàng)電子WTK6900H-32N語音識別芯片:AI降噪算法助力抽油煙機精準語音控制 | 語音IC廠家
語音識別系統(tǒng)的技術核心:從聲音到文字的智能轉(zhuǎn)換
基于開源鴻蒙的語音識別及語音合成應用開發(fā)樣例
語音識別芯片選型有哪些技術參數(shù)要注意
明遠智睿SSD2351開發(fā)板:語音機器人領域的變革力量
普強信息入選2024語音識別技術公司TOP30榜單
廠家芯資訊|廣州唯創(chuàng)電子語音識別芯片技術解析
語音識別的技術原理是什么?
評論