91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

行動(dòng)端及云端的語(yǔ)音辨識(shí)的成長(zhǎng)推動(dòng)嵌入式語(yǔ)音技術(shù)

星星科技指導(dǎo)員 ? 來(lái)源:嵌入式計(jì)算設(shè)計(jì) ? 作者:Todd Mozer ? 2022-10-26 15:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如今,語(yǔ)音技術(shù)領(lǐng)域的許多最大參與者也是手機(jī)操作系統(tǒng)(OS)市場(chǎng)的重量級(jí)人物。微軟是第一個(gè)建立語(yǔ)音團(tuán)隊(duì)的軟件/移動(dòng)操作系統(tǒng)巨頭。在1990年代早期,比爾·蓋茨(Bill Gates)宣揚(yáng)語(yǔ)音用戶界面(VUI)的好處,并預(yù)測(cè)它們將在計(jì)算機(jī)上的人類界面中發(fā)揮作用。谷歌在21世紀(jì)初通過(guò)建立一支由語(yǔ)音技術(shù)專家組成的精英團(tuán)隊(duì)而變得咄咄逼人,并通過(guò)其Android版本刺激了移動(dòng)行業(yè)向語(yǔ)音界面和語(yǔ)音控制的方向發(fā)展。蘋(píng)果一直是用戶體驗(yàn)之王,直到最近,由于準(zhǔn)確性方面的挑戰(zhàn),蘋(píng)果才避免推動(dòng)語(yǔ)音技術(shù)。然而,隨著Siri(一種語(yǔ)音禮賓服務(wù))的收購(gòu)以及該公司的技術(shù)融入iPhone 4S,蘋(píng)果可能會(huì)通過(guò)語(yǔ)音迎來(lái)新一代的自然語(yǔ)言用戶體驗(yàn)。

由于各種原因,語(yǔ)音技術(shù)對(duì)移動(dòng)行業(yè)至關(guān)重要,主要是因?yàn)樗却蜃指菀渍f(shuō)話,而且因?yàn)槭謾C(jī)的外形尺寸是圍繞說(shuō)話而不是打字而構(gòu)建的。此外,隨著移動(dòng)搜索的巨大收入潛力,移動(dòng)操作系統(tǒng)提供商看到了在其技術(shù)組合中添加語(yǔ)音識(shí)別的價(jià)值。

為什么要嵌入?

VUI 的大部分繁重工作都是在云中完成的。這就是大型操作系統(tǒng)參與者的大部分投資去向的地方。云提供了一個(gè)具有幾乎無(wú)限的MIPS和內(nèi)存的環(huán)境 - 這是高級(jí)語(yǔ)音搜索處理的兩個(gè)基本要素。隨著基于云的語(yǔ)音技術(shù)使用的增長(zhǎng),嵌入式領(lǐng)域似乎也出現(xiàn)了類似的趨勢(shì)。

嵌入式語(yǔ)音是在無(wú)法訪問(wèn)云時(shí)啟用語(yǔ)音控制和輸入的唯一解決方案,這是增加用戶體驗(yàn)的必要功能。嵌入式語(yǔ)音還具有消耗更少M(fèi)IPS和內(nèi)存的能力,從而提高了設(shè)備電池電量的效率。

客戶端/云語(yǔ)音使用的最佳方案需要在客戶端上激活語(yǔ)音,并在云上繁重地破譯文本和含義。這可以實(shí)現(xiàn)設(shè)備始終打開(kāi)并始終偵聽(tīng)的方案,因此可以給出并執(zhí)行語(yǔ)音命令,而無(wú)需按客戶端上的按鈕。這種“無(wú)需手或眼睛”的范例在汽車(chē)中特別有用,出于安全目的和在家中的便利性。

例如,在最近推出的Galaxy SII Android手機(jī)中,三星的語(yǔ)音通話利用Sension的TrueHandsfree語(yǔ)音控制(一種嵌入式語(yǔ)音技術(shù))來(lái)激活帶有“嘿銀河”字樣的手機(jī)。這個(gè)短語(yǔ)調(diào)用了Vlingo基于云的識(shí)別服務(wù),該服務(wù)允許用戶在不觸摸手機(jī)的情況下發(fā)出命令和輸入文本。

語(yǔ)音識(shí)別可以在具有低至10 MIPS和數(shù)萬(wàn)字節(jié)內(nèi)存的設(shè)備上實(shí)現(xiàn)。Sensory的語(yǔ)音芯片系列包括基于8位微控制器RISC單芯片和利用小型嵌入式DSP的自然語(yǔ)言處理器。通常,在語(yǔ)音識(shí)別中投入的MIPS和內(nèi)存越多,產(chǎn)品可以具有的功能就越多(更快的響應(yīng)時(shí)間,更大的詞匯量和更復(fù)雜的語(yǔ)法)。

無(wú)論哪個(gè)平臺(tái)執(zhí)行任務(wù),語(yǔ)音識(shí)別的一般方法都是相似的。多年來(lái),隱馬爾可夫建模和神經(jīng)網(wǎng)絡(luò)等統(tǒng)計(jì)方法一直是語(yǔ)音識(shí)別的主要方法。從客戶端遷移到云允許部署統(tǒng)計(jì)語(yǔ)言建模和更復(fù)雜的技術(shù)。

維伊關(guān)卡

要?jiǎng)?chuàng)建真正免提、免眼的用戶體驗(yàn),必須解決幾個(gè)技術(shù)階段。

第 1 階段:語(yǔ)音激活

這實(shí)質(zhì)上是取代按鈕按下。識(shí)別器需要始終處于打開(kāi)狀態(tài),準(zhǔn)備好將階段 2 調(diào)用到運(yùn)行狀態(tài),并且能夠在非常嘈雜的情況下激活。第一階段的另一個(gè)關(guān)鍵標(biāo)準(zhǔn)是非常快的響應(yīng)時(shí)間。鑒于超過(guò)幾百毫秒的延遲可能會(huì)產(chǎn)生由用戶在識(shí)別器偵聽(tīng)之前與階段 2 交談而導(dǎo)致的準(zhǔn)確性問(wèn)題,因此語(yǔ)音激活的響應(yīng)時(shí)間必須與按鈕的響應(yīng)時(shí)間相同,這幾乎是瞬時(shí)的。簡(jiǎn)單的命令和控制功能可以通過(guò) Stage 1 識(shí)別系統(tǒng)或更復(fù)雜的 Stage 2 系統(tǒng)嵌入到客戶端中,該系統(tǒng)可以嵌入或基于云的。

第 2 階段:語(yǔ)音識(shí)別和轉(zhuǎn)錄

更耗電且功能更強(qiáng)大的 Stage 2 識(shí)別器可將所講的內(nèi)容轉(zhuǎn)換為文本。如果目的是短信或語(yǔ)音撥號(hào),則該過(guò)程可以在此處停止。如果用戶希望回答問(wèn)題或訪問(wèn)數(shù)據(jù),系統(tǒng)將進(jìn)入第 3 階段。由于 Stage 1 識(shí)別器可以響應(yīng)高噪聲,因此它可以降低汽車(chē)收音機(jī)或家用 AV 中的音量,以協(xié)助階段 2 識(shí)別。

第 3 階段:意圖和意義

這可能是這一過(guò)程中最大的挑戰(zhàn)。文本翻譯準(zhǔn)確,但它是什么意思?例如,互聯(lián)網(wǎng)搜索所需的查詢是什么?今天的“智能”可能會(huì)嘗試修改搜索,以更好地滿足用戶的需求。然而,計(jì)算機(jī)在弄清楚意圖方面非常糟糕。蘋(píng)果的Siri智能助手是在國(guó)防部資助的CALO項(xiàng)目下開(kāi)發(fā)的,該項(xiàng)目涉及300多名研究人員,可能是當(dāng)今智能詮釋的最佳典范。

第 4 階段:數(shù)據(jù)搜索和查詢

根據(jù)查詢的不同,搜索數(shù)據(jù)并找到正確的結(jié)果可能很簡(jiǎn)單,也可能很復(fù)雜。映射數(shù)據(jù)和方向可能是可靠的,因?yàn)檎Z(yǔ)法很容易理解,并具有地圖搜索的明確目標(biāo)。隨著谷歌和其他搜索提供商在數(shù)據(jù)搜索功能上投入大量資金和時(shí)間,這一階段將繼續(xù)改善。

第 5 階段:語(yǔ)音響應(yīng)

對(duì)查詢的語(yǔ)音響應(yīng)是顯示響應(yīng)的一個(gè)很好的替代方法,這可能會(huì)導(dǎo)致駕駛員將視線從道路上移開(kāi)或給家中帶來(lái)不便。當(dāng)今最先進(jìn)的文本到語(yǔ)音轉(zhuǎn)換系統(tǒng)具有高度的可理解性,并且已經(jīng)發(fā)展到比以前的自動(dòng)語(yǔ)音系統(tǒng)聽(tīng)起來(lái)更自然。

為什么嵌入式識(shí)別器在第 1 階段替換按鈕需要這么長(zhǎng)時(shí)間?

語(yǔ)音識(shí)別傳統(tǒng)上需要按鈕激活而不是語(yǔ)音激活。其主要原因是按鈕雖然分散了注意力,但即使在嘈雜的環(huán)境中也是可靠且響應(yīng)迅速的。這些類型的環(huán)境(如汽車(chē)或繁忙的家庭)對(duì)語(yǔ)音識(shí)別器來(lái)說(shuō)可能具有挑戰(zhàn)性。聲控詞必須在汽車(chē)(車(chē)窗關(guān)閉、收音機(jī)打開(kāi)和道路噪音)或家中(嬰兒哭泣、音樂(lè)或電視打開(kāi)以及電器運(yùn)行)中創(chuàng)建響應(yīng),而無(wú)需用戶為其工作。因此,直到最近,只有當(dāng)用戶處于安靜的環(huán)境中,麥克風(fēng)靠近嘴巴時(shí),語(yǔ)音技術(shù)才是可靠的。

快速響應(yīng)時(shí)間的要求使這一挑戰(zhàn)進(jìn)一步復(fù)雜化。語(yǔ)音識(shí)別器通常需要數(shù)百毫秒才能確定用戶在開(kāi)始處理語(yǔ)音之前是否完成了通話。這種時(shí)間延遲可能是可以接受的,從識(shí)別系統(tǒng)產(chǎn)生答案或回復(fù)給消費(fèi)者。但是,在第 1 階段,激活的響應(yīng)是在階段 2 中調(diào)用另一個(gè)更復(fù)雜的識(shí)別器,并且使用者不會(huì)接受持續(xù)時(shí)間遠(yuǎn)遠(yuǎn)超過(guò)按下按鈕所花費(fèi)的時(shí)間的延遲。延遲時(shí)間越長(zhǎng),階段 2 發(fā)生識(shí)別失敗的可能性就越大,因?yàn)橛脩艨赡軙?huì)在階段 2 識(shí)別器準(zhǔn)備好收聽(tīng)之前開(kāi)始說(shuō)話。

嵌入式語(yǔ)音技術(shù)的最新進(jìn)展,如Sensory的真無(wú)握語(yǔ)音接口,無(wú)需觸摸設(shè)備即可提供真正的VUI。這些技術(shù)消除了嘈雜環(huán)境中固有的問(wèn)題以及較長(zhǎng)的響應(yīng)時(shí)間,使語(yǔ)音激活可行,準(zhǔn)確且更方便。

消費(fèi)電子產(chǎn)品中語(yǔ)音的未來(lái)

許多年前,電視觀眾不得不站起來(lái)走到他們的單位來(lái)改變頻道。遙控器的到來(lái)結(jié)束了這一切,今天沒(méi)有人會(huì)買(mǎi)沒(méi)有遙控器的電視。盡管如此,我們?nèi)匀徽酒饋?lái),走到我們的大多數(shù)計(jì)算設(shè)備使用它們。隨著語(yǔ)音識(shí)別的改進(jìn),這將不再是必需的。

帶有語(yǔ)音觸發(fā)器的免提設(shè)備的快速使用將發(fā)展成為智能設(shè)備,這些設(shè)備可以傾聽(tīng)我們所說(shuō)的內(nèi)容,并決定何時(shí)適合從客戶端轉(zhuǎn)到云端。他們還將決定何時(shí)以及如何回應(yīng),可能會(huì)演變成坐在后臺(tái)傾聽(tīng)一切并決定何時(shí)提供幫助的助手。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 嵌入式
    +關(guān)注

    關(guān)注

    5200

    文章

    20476

    瀏覽量

    334491
  • Android
    +關(guān)注

    關(guān)注

    12

    文章

    4028

    瀏覽量

    134072
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7810

    瀏覽量

    93245
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    XMOS推出專為嵌入式語(yǔ)音交互功能開(kāi)發(fā)提供的全新線上選型指南

    中國(guó)北京,2026年2月——生成系統(tǒng)級(jí)芯片(GenSoC)領(lǐng)先開(kāi)發(fā)者及音視頻媒體處理AI技術(shù)提供商XMOS正式發(fā)布其語(yǔ)音方案選型指南,該款高效易用的網(wǎng)上音頻交互解決方案開(kāi)發(fā)平臺(tái)以互動(dòng)
    的頭像 發(fā)表于 02-25 09:48 ?363次閱讀
    XMOS推出專為<b class='flag-5'>嵌入式</b><b class='flag-5'>語(yǔ)音</b>交互功能開(kāi)發(fā)提供的全新線上選型指南

    側(cè)大模型上車(chē):從“語(yǔ)音助手”到“車(chē)內(nèi) AI 智能體”的躍遷革命

    2025年,智能汽車(chē)的座艙不再只是“語(yǔ)音助手”的舞臺(tái),而是一個(gè)搭載生成AI和大語(yǔ)言模型(LLM)的智能體。從云端示范到車(chē)內(nèi)落地,這一跨越不僅改變了人機(jī)交互的邊界,更重構(gòu)了汽車(chē)作為“第三
    的頭像 發(fā)表于 01-13 09:10 ?497次閱讀

    國(guó)產(chǎn)32位MCU語(yǔ)音識(shí)別方案

    在智能家居、工業(yè)控制及便攜設(shè)備領(lǐng)域,語(yǔ)音交互正成為人機(jī)界面的重要發(fā)展方向。針對(duì)離線語(yǔ)音識(shí)別需求,基于國(guó)產(chǎn)32位MCU的解決方案日益成熟,其中以CH32V307等為代表的32位MCU芯片,憑借高集成度與專用優(yōu)化,為嵌入式設(shè)備提供了
    的頭像 發(fā)表于 12-04 15:11 ?552次閱讀

    什么是離線語(yǔ)音識(shí)別芯片(離線語(yǔ)音識(shí)別芯片有哪些優(yōu)點(diǎn))

    離線語(yǔ)音識(shí)別芯片,是一種集成了語(yǔ)音信號(hào)采集、前端處理和本地識(shí)別功能的專用集成電路,無(wú)須聯(lián)網(wǎng)也可以進(jìn)行語(yǔ)音控制。它內(nèi)設(shè)先進(jìn)的數(shù)字信號(hào)處理模塊及人工智能語(yǔ)音算法,無(wú)須依賴
    的頭像 發(fā)表于 10-31 15:27 ?529次閱讀

    語(yǔ)音交互數(shù)據(jù) 精準(zhǔn)賦能語(yǔ)音大模型進(jìn)階

    語(yǔ)音大模型從“能識(shí)別”向“懂語(yǔ)境”跨越的關(guān)鍵階段,高質(zhì)量場(chǎng)景化語(yǔ)音數(shù)據(jù)已成為制約技術(shù)突破的核心瓶頸。傳統(tǒng)語(yǔ)音識(shí)別數(shù)據(jù)集采用孤立標(biāo)注,在語(yǔ)音
    的頭像 發(fā)表于 09-11 17:17 ?755次閱讀

    廣和通發(fā)布自研側(cè)語(yǔ)音識(shí)別大模型FiboASR

    7月,全球領(lǐng)先的無(wú)線通信模組及AI解決方案提供商廣和通,發(fā)布其自主研發(fā)的語(yǔ)音識(shí)別大模型FiboASR。該模型專為側(cè)設(shè)備上面臨的面對(duì)面實(shí)時(shí)對(duì)話及多人會(huì)議場(chǎng)景深度優(yōu)化,在低延遲語(yǔ)音交互、實(shí)時(shí)語(yǔ)音
    的頭像 發(fā)表于 08-04 11:43 ?1627次閱讀

    云協(xié)同解鎖智能硬件新體驗(yàn),啟明云端正式登陸阿里云云市場(chǎng)

    2025年7月,阿里云戰(zhàn)略產(chǎn)品伙伴——“啟明云端”正式登陸阿里云云市場(chǎng)平臺(tái)消費(fèi)電子專區(qū)。啟明云端作為國(guó)內(nèi)領(lǐng)先的AI智能體硬件方案專家,在嵌入式系統(tǒng)、語(yǔ)音交互硬件及
    的頭像 發(fā)表于 07-09 18:03 ?1369次閱讀
    <b class='flag-5'>端</b>云協(xié)同解鎖智能硬件新體驗(yàn),啟明<b class='flag-5'>云端</b>正式登陸阿里云云市場(chǎng)

    語(yǔ)音助手只能聊天?啟明云端AI語(yǔ)音交互方案偷偷修煉了音樂(lè)才藝!

    語(yǔ)音助手只能聊天?太out了!”語(yǔ)音交互的新樂(lè)章已經(jīng)奏響!啟明云端基于樂(lè)鑫科技芯片的AI語(yǔ)音方案正式解鎖音樂(lè)技能樹(shù),只需一句指令,智能設(shè)備即刻變身專屬點(diǎn)唱機(jī)。只要版權(quán)到位,想聽(tīng)什么?
    的頭像 發(fā)表于 06-27 18:03 ?935次閱讀
    <b class='flag-5'>語(yǔ)音</b>助手只能聊天?啟明<b class='flag-5'>云端</b>AI<b class='flag-5'>語(yǔ)音</b>交互方案偷偷修煉了音樂(lè)才藝!

    明遠(yuǎn)智睿SSD2351開(kāi)發(fā)板:語(yǔ)音機(jī)器人領(lǐng)域的變革力量

    通過(guò)網(wǎng)絡(luò)連接云端服務(wù)器進(jìn)行快速檢索和分析,然后利用語(yǔ)音合成技術(shù)將答案以自然流暢的語(yǔ)音反饋給用戶。同時(shí),借助開(kāi)發(fā)板的網(wǎng)絡(luò)連接功能,語(yǔ)音機(jī)器人還
    發(fā)表于 05-28 11:36

    【米爾-RK3562開(kāi)發(fā)板試用評(píng)測(cè)】RK3562J開(kāi)發(fā)板-語(yǔ)音識(shí)別功能測(cè)試(一)

    主要開(kāi)發(fā)語(yǔ)言(系統(tǒng)已預(yù)裝或手動(dòng)安裝) ??模型框架?? 采用 ??Vosk?? 離線語(yǔ)音識(shí)別框架 優(yōu)勢(shì):支持嵌入式場(chǎng)景,資源占用低 ??模型文件準(zhǔn)備
    發(fā)表于 05-17 21:29

    飛凌嵌入式2025嵌入式及邊緣AI技術(shù)論壇圓滿結(jié)束

    飛凌嵌入式「2025嵌入式及邊緣AI技術(shù)論壇」在深圳深鐵皇冠假日酒店盛大舉行,此次活動(dòng)邀請(qǐng)到了200余位嵌入式技術(shù)領(lǐng)域的
    的頭像 發(fā)表于 04-28 13:57 ?4168次閱讀
    飛凌<b class='flag-5'>嵌入式</b>2025<b class='flag-5'>嵌入式</b>及邊緣AI<b class='flag-5'>技術(shù)</b>論壇圓滿結(jié)束

    飛凌嵌入式2025嵌入式及邊緣AI技術(shù)論壇圓滿結(jié)束

    4月22日下午,備受矚目的飛凌嵌入式「2025嵌入式及邊緣AI技術(shù)論壇」在深圳深鐵皇冠假日酒店盛大舉行,此次活動(dòng)邀請(qǐng)到了200余位嵌入式技術(shù)
    的頭像 發(fā)表于 04-27 11:55 ?830次閱讀
    飛凌<b class='flag-5'>嵌入式</b>2025<b class='flag-5'>嵌入式</b>及邊緣AI<b class='flag-5'>技術(shù)</b>論壇圓滿結(jié)束

    飛凌嵌入式「2025嵌入式及邊緣AI技術(shù)論壇」議程公布

    4月22日,飛凌嵌入式“2025嵌入式及邊緣AI技術(shù)論壇”將在深圳舉行,論壇以“新生態(tài),智未來(lái)”為主題,旨在匯聚行業(yè)智慧,探討嵌入式技術(shù)與邊
    的頭像 發(fā)表于 04-02 15:12 ?1383次閱讀
    飛凌<b class='flag-5'>嵌入式</b>「2025<b class='flag-5'>嵌入式</b>及邊緣AI<b class='flag-5'>技術(shù)</b>論壇」議程公布

    嵌入式去哪個(gè)城市好?

    豐富的項(xiàng)目和資源。知名企業(yè)如華為、百度、小米等都在北京設(shè)有研發(fā)中心,積極推動(dòng)嵌入式技術(shù)的應(yīng)用與發(fā)展。北京的創(chuàng)業(yè)氛圍濃厚,初創(chuàng)公司專注于嵌入式技術(shù)
    發(fā)表于 04-02 10:12

    新生態(tài) 智未來(lái)「飛凌嵌入式2025嵌入式及邊緣AI技術(shù)論壇」開(kāi)啟報(bào)名!

    在這個(gè)技術(shù)日新月異的時(shí)代,每一場(chǎng)思想的碰撞都可能成為推動(dòng)行業(yè)前行的力量,每一次深度對(duì)話都可能迸發(fā)出改變時(shí)代的強(qiáng)光——2025年4月22日,飛凌嵌入式將在深圳舉辦“2025嵌入式及邊緣A
    的頭像 發(fā)表于 03-28 08:05 ?1258次閱讀
    新生態(tài) 智未來(lái)「飛凌<b class='flag-5'>嵌入式</b>2025<b class='flag-5'>嵌入式</b>及邊緣AI<b class='flag-5'>技術(shù)</b>論壇」開(kāi)啟報(bào)名!