我們現(xiàn)在可以與幾乎所有智能設(shè)備進(jìn)行對(duì)話(huà),但是它如何工作?當(dāng)您問(wèn)“這是什么歌?”時(shí),正在使用什么技術(shù)?
Alexa如何運(yùn)作?
根據(jù)Microsoft程序經(jīng)理Adi Agashe的說(shuō)法,Alexa是基于自然語(yǔ)言處理(NLP)構(gòu)建的,該過(guò)程是將語(yǔ)音轉(zhuǎn)換為單詞,聲音和想法的過(guò)程。
亞馬遜會(huì)記錄您的話(huà)語(yǔ)。實(shí)際上,解釋聲音會(huì)占用大量計(jì)算能力,您的語(yǔ)音記錄會(huì)發(fā)送到Amazon的服務(wù)器以進(jìn)行更有效的分析。
計(jì)算能力:指執(zhí)行指令的速度,通常以kiloflops,megaflops等表示。
亞馬遜將您的命令分解為單獨(dú)部分的聲音。然后,它查閱包含各個(gè)單詞的發(fā)音的數(shù)據(jù)庫(kù),以找出最接近對(duì)應(yīng)于各個(gè)聲音組合的單詞。
然后,它識(shí)別出重要的單詞以使任務(wù)有意義并執(zhí)行相應(yīng)的功能。例如,如果Alexa注意到諸如“體育”或“籃球”之類(lèi)的字詞,則會(huì)打開(kāi)體育應(yīng)用程序。
Amazon的服務(wù)器將信息發(fā)送回您的設(shè)備,Alexa可能會(huì)講話(huà)。如果Alexa需要說(shuō)點(diǎn)什么,它將按照上述相同的過(guò)程進(jìn)行,但是順序相反
深入的解釋
根據(jù)Trupti Behera的說(shuō)法,“它始于信號(hào)處理,這為Alexa提供了盡可能多的機(jī)會(huì)通過(guò)清除信號(hào)來(lái)理解音頻。信號(hào)處理是遠(yuǎn)場(chǎng)音頻中最重要的挑戰(zhàn)之一。
想法是改善目標(biāo)信號(hào),這意味著能夠識(shí)別電視等環(huán)境噪聲并將其最小化。為了解決這些問(wèn)題,使用了七個(gè)麥克風(fēng)來(lái)大致識(shí)別信號(hào)的來(lái)源,以便設(shè)備可以專(zhuān)注于此?;芈曄梢詼p去該信號(hào),因此僅保留剩余的重要信號(hào)。
下一個(gè)任務(wù)是“喚醒字檢測(cè)”。它確定用戶(hù)是否說(shuō)出設(shè)備被編程需要打開(kāi)的單詞之一,例如“ Alexa”。需要這樣做以最大程度地減少誤報(bào)和誤報(bào),這些誤報(bào)和誤報(bào)可能導(dǎo)致意外購(gòu)買(mǎi)和引起客戶(hù)憤怒。這確實(shí)很復(fù)雜,因?yàn)樗枰R(shí)別發(fā)音差異,并且需要在CPU能力有限的設(shè)備上進(jìn)行識(shí)別。
如果檢測(cè)到喚醒字,則將信號(hào)發(fā)送到云中的語(yǔ)音識(shí)別軟件,該軟件將音頻和 將其轉(zhuǎn)換為文本格式。由于它查看英語(yǔ)中的所有單詞,因此輸出空間很大,并且云是唯一能夠充分?jǐn)U展的技術(shù)。使用Echo播放音樂(lè)的人的數(shù)量使情況進(jìn)一步復(fù)雜化-許多藝術(shù)家使用的名字拼寫(xiě)方式不同于一般常見(jiàn)的單詞。
要將音頻轉(zhuǎn)換為文本,Alexa將分析用戶(hù)語(yǔ)音的特征(例如頻率和音高)以提供特征值。
給定輸入特征和模型,解碼器將確定最可能的單詞序列是什么,該模型分為兩部分。其中的第一個(gè)是先驗(yàn)的,它根據(jù)大量現(xiàn)有文本為您提供最可能的序列,而無(wú)需查看功能,另一個(gè)是聲學(xué)模型,通過(guò)查看音頻對(duì)進(jìn)行深度學(xué)習(xí)訓(xùn)練和成績(jī)單。將這些組合在一起,并應(yīng)用動(dòng)態(tài)編碼,該編碼必須實(shí)時(shí)進(jìn)行?!?/p>
分析命令
上面的命令包含3個(gè)主要部分:?jiǎn)拘炎?,調(diào)用名稱(chēng),提示。
喚醒詞
當(dāng)用戶(hù)說(shuō)“ Alexa”時(shí),它將喚醒設(shè)備。喚醒詞使Alexa進(jìn)入聆聽(tīng)模式,并準(zhǔn)備接受用戶(hù)的指示。
調(diào)用名稱(chēng)
調(diào)用名稱(chēng)是用于觸發(fā)特定“技能”的關(guān)鍵字。用戶(hù)可以將調(diào)用名稱(chēng)與操作,命令或問(wèn)題結(jié)合使用。所有自定義技能都必須具有一個(gè)調(diào)用名稱(chēng)才能啟動(dòng)它。
Alexa的“技能”:語(yǔ)音驅(qū)動(dòng)的Alexa功能。
表述
“Taurus”是一種話(huà)語(yǔ)。表述是用戶(hù)向Alexa請(qǐng)求時(shí)將使用的短語(yǔ)。Alexa從給定的語(yǔ)音識(shí)別用戶(hù)的意圖,并做出相應(yīng)的響應(yīng)。因此,基本上,這些表述決定了用戶(hù)希望Alexa執(zhí)行的操作。
什么是NLP?
它是人工智能和計(jì)算語(yǔ)言學(xué)的融合,它處理機(jī)器與人類(lèi)自然語(yǔ)言之間的相互作用,其中計(jì)算機(jī)必須分析,理解,更改或生成自然語(yǔ)言。
NLP幫助計(jì)算機(jī)使用多種形式的自然人類(lèi)語(yǔ)言進(jìn)行通信,包括但不限于語(yǔ)音和書(shū)寫(xiě)。
“與計(jì)算機(jī)進(jìn)行二十分鐘的閑聊不只是一個(gè)月球,而是去火星的旅程?!?/p>
在本文中,我發(fā)現(xiàn)了一個(gè)有趣的部分,其中說(shuō):“理解人類(lèi)語(yǔ)言由于其復(fù)雜性而被認(rèn)為是一項(xiàng)艱巨的任務(wù)。例如,有無(wú)數(shù)種不同的方式來(lái)排列句子中的單詞。而且,單詞可能具有多種含義,上下文信息對(duì)于正確地解釋句子是必要的?!?/p>
開(kāi)始時(shí),系統(tǒng)會(huì)輸入自然語(yǔ)言。
自然語(yǔ)言:任何通過(guò)使用和重復(fù)在人類(lèi)中自然進(jìn)化而無(wú)需有意識(shí)地計(jì)劃或預(yù)想的語(yǔ)言。自然語(yǔ)言可以采用不同的形式,例如語(yǔ)音或簽名
之后,它將 它們轉(zhuǎn)換為人工語(yǔ)言,例如語(yǔ)音識(shí)別。在這里,我們將數(shù)據(jù)轉(zhuǎn)換為文本形式,通過(guò)NLU(自然語(yǔ)言理解)過(guò)程來(lái)理解其含義。
一個(gè)很好的規(guī)則是,如果您只是在談?wù)摍C(jī)器理解我們所說(shuō)內(nèi)容的能力,請(qǐng)使用術(shù)語(yǔ)NLU。NLU實(shí)際上是NLP廣闊世界的一個(gè)子集
隱馬爾可夫模型(NLU示例):
在語(yǔ)音識(shí)別中,此模型將波形的每個(gè)部分與之前發(fā)生的事情和之后發(fā)生的事情進(jìn)行比較,并與波形字典進(jìn)行比較以弄清楚正在說(shuō)什么。
波形:聲帶的周期性振動(dòng)導(dǎo)致發(fā)聲
隱藏的馬爾可夫模型(HMM)是您觀察排放序列的模型,但不知道模型產(chǎn)生排放所經(jīng)歷的狀態(tài)序列。隱馬爾可夫模型的分析試圖從觀察到的數(shù)據(jù)中恢復(fù)狀態(tài)序列。
對(duì)于NeoSpeech的市場(chǎng)營(yíng)銷(xiāo)專(zhuān)家Trevor Jackins來(lái)說(shuō),“它通過(guò)獲取語(yǔ)音數(shù)據(jù)并將其分解為特定時(shí)間段(通常為10到20毫秒)的小樣本來(lái)嘗試?yán)斫饽陌l(fā)言。將這些數(shù)據(jù)集與預(yù)語(yǔ)音進(jìn)行比較,以解碼您在語(yǔ)音的每個(gè)單元中所說(shuō)的內(nèi)容。這里的目的是找到音素(最小的語(yǔ)音單位)。然后,機(jī)器查看一系列這樣的音素,并從統(tǒng)計(jì)角度確定最有可能說(shuō)出的單詞和句子?!?/p>
然后,NLU會(huì)深入理解每個(gè)單詞,從而嘗試?yán)斫馑敲~還是動(dòng)詞,使用的時(shí)態(tài)等。此過(guò)程定義為POS:語(yǔ)音標(biāo)記的一部分。
據(jù)EasyGov的CPO Pramod Chandrayan所說(shuō),,“NLP系統(tǒng)也有一個(gè)詞匯(詞匯)和一組編碼到系統(tǒng)的語(yǔ)法規(guī)則。現(xiàn)代的NLP算法使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)將這些規(guī)則應(yīng)用于自然語(yǔ)言,并確定您所說(shuō)內(nèi)容背后最可能的含義?!?/p>
“要構(gòu)建能夠理解自然語(yǔ)言的機(jī)器,必須結(jié)合使用規(guī)則和統(tǒng)計(jì)模型來(lái)提取語(yǔ)音。必須提取,標(biāo)識(shí)和解析實(shí)體,并且必須在上下文中派生語(yǔ)義,并將其用于標(biāo)識(shí)意圖。例如,必須解析一個(gè)簡(jiǎn)單的短語(yǔ),例如:“我需要從12月5日至10日去巴黎乘坐飛機(jī)和預(yù)定旅館”,并給出以下結(jié)構(gòu):
need:flight {intent} / need:hotel {intent} / Paris {city} / DEC 5 {date} / DEC 10 {date} / sentiment: 0.5723 (neutral)”
對(duì)于作者,主題演講者和顧問(wèn) Bernard Marr來(lái)說(shuō), “當(dāng)Alexa在解釋您的請(qǐng)求時(shí)出錯(cuò)時(shí),該數(shù)據(jù)將在下一次使系統(tǒng)變得更好時(shí)使用。機(jī)器學(xué)習(xí)是語(yǔ)音激活用戶(hù)界面功能快速提高的原因。”
在亞馬遜網(wǎng)站上,我們可以讀到“通過(guò)自然語(yǔ)言理解(NLU),計(jì)算機(jī)可以推斷出說(shuō)話(huà)者的實(shí)際含義,而不僅僅是他們說(shuō)的話(huà)?;旧?,這就是讓Alexa之類(lèi)的語(yǔ)音技術(shù)推斷出您可能在詢(xún)問(wèn)“ Alexa,外面的感覺(jué)是什么?”時(shí)要求本地天氣預(yù)報(bào)的原因。
如今的語(yǔ)音優(yōu)先技術(shù)是使用NLU構(gòu)建的,NLU是一種人工智能,其重點(diǎn)在于識(shí)別人類(lèi)語(yǔ)言中的模式和含義。以語(yǔ)音助手為代理的自然語(yǔ)言處理已經(jīng)重新定義了我們?cè)诩彝ズ推渌矫媾c技術(shù)交互的方式。”
審核編輯 黃昊宇
-
語(yǔ)音識(shí)別
+關(guān)注
關(guān)注
39文章
1812瀏覽量
116071 -
人工智能
+關(guān)注
關(guān)注
1817文章
50115瀏覽量
265588 -
自然語(yǔ)言處理
+關(guān)注
關(guān)注
1文章
630瀏覽量
14674
發(fā)布評(píng)論請(qǐng)先 登錄
利用高密度內(nèi)存顯著優(yōu)化人工智能欺詐檢測(cè)的基礎(chǔ)設(shè)施成本
自然語(yǔ)言處理NLP的概念和工作原理
云知聲論文入選自然語(yǔ)言處理頂會(huì)EMNLP 2025
亞馬遜云科技推出Amazon Quick Suite,引領(lǐng)Agentic AI驅(qū)動(dòng)的工作新范式
亞馬遜云科技在中國(guó)區(qū)域推出Amazon Graviton4實(shí)例 以自研芯片驅(qū)動(dòng)企業(yè)算力升級(jí)
HarmonyOSAI編程自然語(yǔ)言代碼生成
北斗生態(tài)環(huán)境監(jiān)測(cè)站:讀懂自然的 “語(yǔ)言”
【HZ-T536開(kāi)發(fā)板免費(fèi)體驗(yàn)】5- 無(wú)需死記 Linux 命令!用 CangjieMagic 在 HZ-T536 開(kāi)發(fā)板上搭建 MCP 服務(wù)器,自然語(yǔ)言輕松控板
人工智能浪潮下,制造企業(yè)如何借力DeepSeek實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型?
云知聲四篇論文入選自然語(yǔ)言處理頂會(huì)ACL 2025
亞馬遜功能最強(qiáng)模型Amazon Nova Premier現(xiàn)已正式可用
自然語(yǔ)言處理的發(fā)展歷程和應(yīng)用場(chǎng)景
東芝硬盤(pán)如何優(yōu)化存儲(chǔ)
自然語(yǔ)言提示原型在英特爾Vision大會(huì)上首次亮相
?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析
Amazon Alexa如何工作?您的自然語(yǔ)言處理指南
評(píng)論