91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語音識別“拐點”已至,現(xiàn)在切入才是好時機?

張慧娟 ? 來源:電子發(fā)燒友網(wǎng) ? 作者:張慧娟 ? 2019-12-30 14:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群


“現(xiàn)在切入語音識別正是好時機,更早進入也是在教育市場,過去兩年一些公司的出貨量經(jīng)歷了非常殘酷的考驗?,F(xiàn)在行業(yè)進入拐點時期,我們進入正是最好的時間點”,探境科技CEO魯勇對<電子發(fā)燒友>表示。

“拐點”之說何來?

根據(jù)Gartner在今年8月底發(fā)布的“人工智能技術(shù)成熟度曲線”可以看到,處于生產(chǎn)力成熟期(Plateau of Productivity)的技術(shù)僅有兩項:語音識別(Speech Recognition)和GPU加速器accelerators),且正處于爬升態(tài)勢。來自市場的反饋同樣如此,這兩項技術(shù)是當前落地最快、最多的AI項目。

在語音識別的落地項目中,場景最多的當屬智能家居領(lǐng)域,以智能音箱為典型代表。但是,從用戶反饋來看,兩大問題已經(jīng)浮現(xiàn)出來:一是在真實語音交互場景中,在復(fù)雜的聲場環(huán)境、噪音的影響下,語音識別準確率直線下降;二是越來越多安全問題的爆出,讓用戶對于家中的這個“云耳朵”充滿了擔(dān)憂。

第一批智能音箱在滿足了用戶的好奇心之后,成為非常雞肋的一個產(chǎn)品,要么在家中落灰,要么需要時時警惕,僅在偶爾使用時才敢接上電源。

在成為爆款這件事上,智能音箱讓業(yè)界失望了。

滿足好奇心過后,語音交互下一波靠什么撬動市場?是價格嗎?

是,也不全是。在巨大的市場痛點面前,誰能抓住用戶需求,真正解決問題,誰才有希望在這條擁擠的賽道上前進一小段。

市場正在開始新一輪的篩選。

市場需要什么樣的語音識別方案?

語音作為人機交互的重要方式之一,終極目標是實現(xiàn)自然的交互。而當前的技術(shù)遠遠達不到,在語音識別這一環(huán)節(jié),解決噪音問題、提升遠場語音識別率、消除用戶顧慮/提升安全性成為當務(wù)之急。

在家居場景下,語音識別面臨兩大挑戰(zhàn)

第一是低信噪比。在我們的生活場景中,存在著一些高噪聲的環(huán)境,比如抽油煙機或者掃地機器人,這些設(shè)備上噪聲最低也有70分貝。麥克風(fēng)距離這些設(shè)備非常近,而操作者距離麥克風(fēng)會更遠些,這些因素疊加,會導(dǎo)致語音識別設(shè)備采集到的信噪比非常低,給識別帶來很大的挑戰(zhàn)。

第二是非穩(wěn)態(tài)的噪聲的影響。傳統(tǒng)降噪算法無法處理,比如電視劇聲音/音樂突然的節(jié)奏變化,或者是做飯時叮叮咣咣的聲音等,都帶有突發(fā)性和不可預(yù)見性。

為了解決上述挑戰(zhàn),增強語音信號質(zhì)量、提升信噪比,業(yè)界通常采用麥克風(fēng)陣列的方式。但是,在干擾信號和目標聲源方向接近的場景下,傳統(tǒng)的麥克風(fēng)陣列增強算法幾乎無法處理。

據(jù)<電子發(fā)燒友>了解,目前市面上的智能語音芯片方案可粗略分為兩種:一種是披著“AI”外衣的DSP,這種方案可實現(xiàn)輕量級的NN支持,在識別指令數(shù)量方面有提升,但是通常并無降噪支持;另一種可支持RNN/CNN/DNN等模型、架構(gòu)上通常采用MCU+NN或MCU+DSP+NN。

在魯勇看來,未來用戶體驗要求會越來越高,相應(yīng)地將造成算法越來越復(fù)雜,對算力的要求將更高。只有從底層進行顛覆性創(chuàng)新,才能真正解決問題

揭密探境語音識別三大核心技術(shù)

AI降噪+HONN神經(jīng)網(wǎng)絡(luò)提升識別率

在語音識別的研發(fā)過程中,一個完整的識別鏈路可以簡化為麥克風(fēng)輸入、降噪處理、語音識別、識別結(jié)果輸入四個環(huán)節(jié)。想做好識別,首先要在降噪處理上下功夫。

探境自研的AI降噪算法基于深度學(xué)習(xí),不僅能夠處理穩(wěn)態(tài)的噪聲,非穩(wěn)態(tài)的突發(fā)性噪聲也能很好的過濾。據(jù)探境科技副總裁李同治介紹,憑借探境AI降噪算法的有效性,他曾將一批信噪比在3dB左右的語音數(shù)據(jù)做了測試,降噪后比降噪前提高30%識別準確率。

在對聲音進行降噪處理之后,就進入到了語音識別環(huán)節(jié)。在這一環(huán)節(jié)中,神經(jīng)網(wǎng)絡(luò)模型所需的算力決定了模型的描述能力,同時也決定了模型處理能力和識別率的上限。

以往的語音識別算法,用的最多的是全連接的操作DNN/DTNN。據(jù)了解,國內(nèi)多家語音識別芯片采用的都是DNN的方法。

探境計算機視覺的經(jīng)驗遷移到語音識別中,在語音識別算法上加入了更多的卷積操作,重新設(shè)計了一個高計算強度的神經(jīng)網(wǎng)絡(luò),即HONN(High Operation Neural Network)。
圖:DNN與HONN區(qū)別
在高計算強度神經(jīng)網(wǎng)絡(luò)里,每一個處理單元變成了立體維度,所能處理的信息量和計算密度,也遠遠超過傳統(tǒng)DNN/DTNN的方法。

由于多了一個維度的識別,性能方面得到了顯著提升:DNN需要1.6M的存儲空間,而HONN僅需要350k,這意味著可以使用存儲空間更少、成本更低的芯片來做語音識別。

同時,DNN與HONN所需的算力相反。在處理高強度模型單幀時,HONN需要超過幾百兆OPS,而一般的DNN模型需要個位數(shù)的算力。兩者相差超過30倍。對于神經(jīng)網(wǎng)絡(luò)來說,模型所需的算力決定了模型的描述能力,同時也決定了模型處理能力和識別率的上限,從國內(nèi)外趨勢來看,最近工業(yè)和學(xué)術(shù)界趨向于使用算力需求大的模型來做建模。

據(jù)李同治介紹,就好比動物界大腦新皮層的容量決定著物種的智力程度,比如人類的新皮層容量是普通哺乳動物的近100倍,相應(yīng)的,人類的智能程度超出普通哺乳動物幾個數(shù)量級。

卷積運算與人類大腦負責(zé)感知模塊的處理方法類似,能夠提取滿足大腦認知的本質(zhì)特征。在參數(shù)數(shù)量相同的條件下,HONN通過卷積操作能夠提供更高的計算強度,提高模型的算力需求。相對安靜的環(huán)境下兩者之間差別不大,但是當信噪比進一步降低時,基于HONN的方法識別優(yōu)勢非常明顯。

端到端FCSP雙麥算法簡化識別流程

“為了克服傳統(tǒng)分模塊語音增強算法的缺點,我們設(shè)計出了基于FCSP的端到端AI雙麥算法”,李同治表示。FCSP(Frequency Complex Subspace Projection)是探境自研的頻域復(fù)數(shù)子空間投影算法的簡稱。

據(jù)了解,“端到端”是目前國際前沿的處理算法,亞馬遜、谷歌等都在采用類似的方法。探境基于FCSP的端到端雙麥算法直接輸入陣列信號,輸出的是最終的識別結(jié)果,中間部分全部交給基于深度學(xué)習(xí)的AI算法來處理,不再使用傳統(tǒng)的數(shù)字信號處理方法。信號增強與識別模塊整體以降低識別錯誤率為目標進行優(yōu)化,避免了語音增強與語音識別模塊錯配的問題。在信噪比為0dB時,相對于傳統(tǒng)的處理算法,相對識別錯誤率降低超過20%。

存儲優(yōu)先的SFA芯片架構(gòu)

魯勇談到,在核心技術(shù)方面,市面上一些玩家像是在跛著腳走路,要么有芯片沒算法,要么有算法沒芯片,這樣在市場上無法形成真正的競爭力。性能優(yōu)異的算法+算力強勁且通用性強的芯片,才能充分發(fā)揮實力,探境就是要提供全棧式的技術(shù)能力,包括芯片設(shè)計、算法研究、軟件開發(fā)和系統(tǒng)集成,提供Turn-key整體解決方案。

探境的骨干力量在行業(yè)內(nèi)擁有10-20年的工作經(jīng)驗,其中一些曾就職于Marvell、英偉達、高通Intel、硅谷數(shù)模等知名公司?;诙嗄甑慕?jīng)驗和對AI未來的預(yù)判,他們決定推翻馮諾依曼體系,推出了存儲優(yōu)先(SFA)的芯片架構(gòu)。

SFA架構(gòu)以存儲驅(qū)動計算,具有能效比高、資源利用率高、通用性強等特點。在SFA架構(gòu)上實現(xiàn)深度學(xué)習(xí)時,只需要一個較高層次的神經(jīng)網(wǎng)絡(luò)描述。SFA的編譯器首先將這個神經(jīng)網(wǎng)絡(luò)進行全部融合,然后根據(jù)具體架構(gòu)實現(xiàn)的規(guī)模產(chǎn)生一個統(tǒng)一的存儲流圖,再進行存儲節(jié)點的時空映射,最后根據(jù)各個節(jié)點之間的計算類型配置計算單元,組合起來形成一個統(tǒng)一的固件供SFA控制器使用。

在28nm常規(guī)工藝芯片的對比測試中,SFA架構(gòu)在乘法器數(shù)目相同情況下(DRAM為LPDDR4),結(jié)果如下表,系統(tǒng)能效超過4T OPS/W,甚至超過12nm的芯片方案。
測試網(wǎng)絡(luò) 數(shù)據(jù)訪問量
DSP VS SFA
存儲子系統(tǒng)功耗
DSP/SFA
inceptionv3 32:1 9:1
mobilenetssd 43:1 11:1
resnet50 17:1 6:1
VGG19 108:1 17:1
yolov2 47:1 12:1
注:測試方法為帶有卷積加速器擴展指令的DSP模式與SFA架構(gòu)模式的對比

探境有一句宣傳語:NPU的性能,MCU的價格,背后動力主要來源于芯片架構(gòu)的優(yōu)化。設(shè)計這樣一個全新的架構(gòu)難度不言而喻,據(jù)魯勇介紹,其中涉及數(shù)學(xué)、計算機架構(gòu)、數(shù)據(jù)管理調(diào)度、硬件設(shè)計經(jīng)驗等,是個復(fù)雜的綜合工程,并且要把這些方法揉在一起發(fā)揮出最大效力,通過算法和調(diào)度方式降低資源的連接復(fù)雜度,從而降低功耗,提高對數(shù)據(jù)本身的使用效率。他強調(diào),SFA存儲優(yōu)先,不同于存算一體架構(gòu)。后者需要從底層工藝去修改芯片設(shè)計,而存儲優(yōu)先是算法上的更新,無需修改芯片底層單元庫。在當前商業(yè)化節(jié)奏越來越快的潮流之下,這種架構(gòu)更通用、更兼容,大大加快了商業(yè)化落地速度。

探境能否漸入佳境?

依托于獨有的AI降噪技術(shù)和HONN神經(jīng)網(wǎng)絡(luò),探境的Voitist音旋風(fēng)611可以覆蓋絕大部分生活場景,量產(chǎn)供貨僅半年,已經(jīng)實現(xiàn)百萬級出貨。目前,探境擁有約30家合作伙伴,包括美的、海爾等智能家居制造大廠,智能家居制造商阿凡達智控、渠道商世強科技也剛剛與探境達成合作。

從探境首次曝光的產(chǎn)品矩陣來看,覆蓋低功耗產(chǎn)品、主流產(chǎn)品、旗艦產(chǎn)品三大系列、六顆AI芯片,對于離在線一體、本地NLP、超低功耗產(chǎn)品等都有布局,希望形成智能家居網(wǎng)絡(luò)的矩陣式入口。

離線智能語音交互是當前一個重要的細分領(lǐng)域,無需聯(lián)網(wǎng)可在本地實現(xiàn)語音交互,不僅能夠保護隱私安全,同時也可以減少用戶大量數(shù)據(jù)傳送到云端的壓力,當前主要應(yīng)用于白電市場??赏ㄟ^離線智能語音控制的家電產(chǎn)品目前包括:燈控、空調(diào)、電視機、油煙機、玩具等。

不過,探境不僅僅滿足于做一家語音方案公司。初嘗到語音市場的甜頭后,探境把觸角伸到了下一個紅利市場——圖像識別。據(jù)魯勇介紹,探境的圖像芯片在2019年Q4已經(jīng)流片成功,在某些領(lǐng)域已經(jīng)開始產(chǎn)生營收了。根據(jù)公布的核心指標來看,核心能效比IPS/W達800,是目前全球AI芯片中最高的,而這足以支撐探境去云端推理市場正面PK。

不過,就像魯勇所說,AI芯片像馬拉松長跑,比的是耐力,而不是沖刺速度,在這場比賽中,不是要看誰跑得快,而是要看誰有潛力到達終點,誰在中途不走岔路。

探境能否從智能家居開始,打穩(wěn)地基,漸入佳境?還需要市場應(yīng)用最后給出答案。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人機交互
    +關(guān)注

    關(guān)注

    12

    文章

    1288

    瀏覽量

    57929
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1812

    瀏覽量

    116055
  • NPU
    NPU
    +關(guān)注

    關(guān)注

    2

    文章

    373

    瀏覽量

    21101
  • 探境科技
    +關(guān)注

    關(guān)注

    0

    文章

    4

    瀏覽量

    1964
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    瑞芯微(EASY EAI)RV1126B 語音識別

    1.語音識別簡介語音識別技術(shù),也被稱為自動語音識別(AutomaticSpeechRecogni
    的頭像 發(fā)表于 01-21 10:43 ?841次閱讀
    瑞芯微(EASY EAI)RV1126B <b class='flag-5'>語音</b><b class='flag-5'>識別</b>

    語音識別IC分類,語音識別芯片的工作原理

    語音識別芯片,也叫語音識別集成電路,是一種集聲音存儲、播放、錄音及語音識別功能于一體的專用芯片。
    的頭像 發(fā)表于 01-14 15:22 ?243次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識別</b>IC分類,<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片的工作原理

    國產(chǎn)32位MCU語音識別方案

    在智能家居、工業(yè)控制及便攜設(shè)備領(lǐng)域,語音交互正成為人機界面的重要發(fā)展方向。針對離線語音識別需求,基于國產(chǎn)32位MCU的解決方案日益成熟,其中以CH32V307等為代表的32位MCU芯片,憑借高集成度與專用優(yōu)化,為嵌入式設(shè)備提供了
    的頭像 發(fā)表于 12-04 15:11 ?544次閱讀

    語音識別芯片有哪些(語音識別芯片AT680系列)

    在人工智能技術(shù)飛速發(fā)展的今天,語音識別芯片作為人機交互的重要橋梁,正逐漸成為各類智能設(shè)備不可或缺的核心部件。與傳統(tǒng)的語音芯片不同,語音識別
    的頭像 發(fā)表于 11-14 17:11 ?1375次閱讀

    什么是離線語音識別芯片(離線語音識別芯片有哪些優(yōu)點)

    離線語音識別芯片,是一種集成了語音信號采集、前端處理和本地識別功能的專用集成電路,無須聯(lián)網(wǎng)也可以進行語音控制。它內(nèi)設(shè)先進的數(shù)字信號處理模塊及
    的頭像 發(fā)表于 10-31 15:27 ?511次閱讀

    如何選擇合適的語音識別芯片型號

    語音識別芯片(又稱語音識別IC)是現(xiàn)代智能設(shè)備的核心組件,與傳統(tǒng)語音芯片相比,其最大特點是能夠主動識別
    的頭像 發(fā)表于 10-30 16:32 ?615次閱讀

    基于開源鴻蒙的語音識別語音合成應(yīng)用開發(fā)樣例

    本期內(nèi)容由AI Model SIG提供,介紹了在開源鴻蒙中,利用sherpa_onnx開源三方庫進行ASR語音識別與TTS語音合成應(yīng)用開發(fā)的流程。
    的頭像 發(fā)表于 08-25 14:26 ?4117次閱讀
    基于開源鴻蒙的<b class='flag-5'>語音</b><b class='flag-5'>識別</b>及<b class='flag-5'>語音</b>合成應(yīng)用開發(fā)樣例

    瑞芯微RK3576語音識別算法

    1.語音識別簡介語音識別技術(shù),也被稱為自動語音識別(AutomaticSpeechRecogni
    的頭像 發(fā)表于 08-15 15:13 ?2193次閱讀
    瑞芯微RK3576<b class='flag-5'>語音</b><b class='flag-5'>識別</b>算法

    語音識別---大家怎么看呢?

    語音識別是一門交叉學(xué)科。近二十年來,語音識別技術(shù)取得顯著進步,開始從實驗室走向市場。人們預(yù)計,未來10年內(nèi),語音
    發(fā)表于 08-09 10:54

    AT6811-超低功耗離線智能語音識別 SoC

    AT6811芯片以0.8mA超低功耗實現(xiàn)離線語音交互,在嘈雜環(huán)境中仍保持92%識別率,賦能空調(diào)、電動工具、助聽器等設(shè)備,讓萬物擁有自然對話能力。
    的頭像 發(fā)表于 08-07 17:44 ?1435次閱讀

    EASY EAl Orin Nano(RK3576) whisper語音識別訓(xùn)練部署教程

    1Whisper簡介Whisper是OpenAI開源的,識別語音識別能力已達到人類水準自動語音識別系統(tǒng)。Whisper作為一個通用的
    的頭像 發(fā)表于 07-25 15:21 ?855次閱讀
    EASY EAl Orin Nano(RK3576) whisper<b class='flag-5'>語音</b><b class='flag-5'>識別</b>訓(xùn)練部署教程

    EASY EAl Orin Nano(RK3576) whisper語音識別訓(xùn)練部署教程

    Whisper是OpenAI開源的,識別語音識別能力已達到人類水準自動語音識別系統(tǒng)。Whisper作為一個通用的
    的頭像 發(fā)表于 07-17 14:55 ?1769次閱讀
    EASY EAl Orin Nano(RK3576) whisper<b class='flag-5'>語音</b><b class='flag-5'>識別</b>訓(xùn)練部署教程

    STM32F103驅(qū)動LD3320語音識別模塊

    本文介紹了如何使用STM32F103微控制器驅(qū)動LD3320語音識別模塊,該模塊具備非特定人語音識別功能,支持動態(tài)編輯關(guān)鍵詞,且無需額外Flash和RAM。通過SPI接口連接并配置代碼
    的頭像 發(fā)表于 06-28 14:16 ?1639次閱讀
    STM32F103驅(qū)動LD3320<b class='flag-5'>語音</b><b class='flag-5'>識別</b>模塊

    語音識別芯片選型有哪些技術(shù)參數(shù)要注意

    語音識別芯片的使用場景越來越多涉及的范圍也越來越廣!那么語音芯片的選型就很重要了,選型不對直接影響產(chǎn)品的使用體驗,下面小編從不同的維度來給大家介紹語音
    的頭像 發(fā)表于 06-23 17:31 ?876次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片選型有哪些技術(shù)參數(shù)要注意

    智能語音新風(fēng)尚:WTK6900語音識別芯片賦能未來家居,讓涼爽觸“聲”可及

    在人工智能技術(shù)飛速發(fā)展的今天,語音交互正以顛覆性的方式重塑我們的生活體驗。WTK6900系列語音識別芯片憑借其離線高性能、抗噪遠場識別、毫秒級響應(yīng)的核心優(yōu)勢,為智能家居領(lǐng)域注入全新活力
    的頭像 發(fā)表于 04-08 08:43 ?1275次閱讀
    智能<b class='flag-5'>語音</b>新風(fēng)尚:WTK6900<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片賦能未來家居,讓涼爽觸“聲”可及