Apple 的 Siri 可以說是最著名的語音助手之一,其中不必按按鈕便能向 Siri 下指令的「Hey Siri」功能也受到許多好評,近日在博客中,Siri 團(tuán)隊(duì)除了表示計(jì)劃運(yùn)用機(jī)器學(xué)習(xí)持續(xù)改進(jìn)這項(xiàng)功能,也解釋了 iOs 設(shè)備的 Hey Siri 功能的運(yùn)作方式,以及未來計(jì)劃持續(xù)改進(jìn)的目標(biāo)。
所謂的「Hey Siri」功能,就是讓使用者不必按按鈕、只需在語音指令前加上 Hey Siri,手機(jī)便會(huì)自動(dòng)啟動(dòng)并遵照指示行動(dòng)。
但 Apple 究竟是怎么做到的?博客文章指出,「Hey Siri」的進(jìn)化與解決了「關(guān)鍵片語檢測」(key-phrase detection)問題相關(guān),同時(shí)運(yùn)用了 DNN 來進(jìn)行了早期建模工作,并使用了遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來進(jìn)行多樣化的訓(xùn)練與學(xué)習(xí)。
Siri 團(tuán)隊(duì)解釋,之所以選擇以「Hey Siri」作為觸發(fā)語,是因?yàn)榧词乖谶@項(xiàng)功能推出以前,人們在運(yùn)用按鈕呼喚 Siri 也會(huì)自然而然的在請求前加上這句話。這原先是一個(gè)方便用戶的簡單決定,但早期的離線實(shí)驗(yàn)中,Hey Siri 的簡潔和口語性卻為開發(fā)團(tuán)隊(duì)帶來額外的挑戰(zhàn)。
Siri 團(tuán)隊(duì)主要面臨的錯(cuò)誤辨識(shí)挑戰(zhàn)為三種,分別為當(dāng)用戶表達(dá)類似短句時(shí)、當(dāng)非用戶說出 Hey Siri 時(shí),以及最令 Siri 團(tuán)隊(duì)頭痛的當(dāng)非用戶說出類似短句時(shí)。
為了讓 Siri 不被類似短句及非用戶誤導(dǎo),團(tuán)隊(duì)先是將焦點(diǎn)由尋常語音辨識(shí)目標(biāo)的「說話內(nèi)容」轉(zhuǎn)移至辨識(shí)「說話者」的身份,利用說話者辨識(shí)(speaker recognition, SR)并結(jié)合相關(guān)技術(shù)來增進(jìn)偵測關(guān)鍵短句的系統(tǒng)質(zhì)量。
以目前來說,Apple 會(huì)要求首次使用的用戶以要求的 5 個(gè)短句來語音來完成說話者辨識(shí)系統(tǒng)的注冊,但除了這種顯性注冊模式之外,團(tuán)隊(duì)也設(shè)計(jì)了另一種隱性模式(implicit enrollment)的辨識(shí):透過紀(jì)錄用戶一段時(shí)間內(nèi)的語音,進(jìn)而提高對說話者辨識(shí)的穩(wěn)健性。
當(dāng)然考量到個(gè)人隱私的因素,音頻將保留于設(shè)備上而并非云端,但這種設(shè)計(jì)目前仍有一些疑慮存在,如果早期紀(jì)錄的語音片段并非用戶本人,那么設(shè)備可能會(huì)錯(cuò)誤的拒絕用戶指令或錯(cuò)誤的接受非用戶的聲音,如此一來功能將變得毫無用處。
展望未來,除了像所有語音辨識(shí)系統(tǒng)一樣得想辦法克服環(huán)境噪音的問題,Siri 團(tuán)隊(duì)還希望未來用戶能不需經(jīng)過任何訓(xùn)練與注冊,在開始使用「Hey Siri」功能后透過用戶的許可,透過生活里的指令中便能將語音辨識(shí)資料的內(nèi)容持續(xù)增長與更新。
雖然還不清楚這些改動(dòng)何時(shí)會(huì)推出,但 Apple 經(jīng)常會(huì)在每年 6 月全球者開發(fā)大會(huì)上談到 Siri 的重大改進(jìn),相信在不久的未來我們很快就能聽到一些好消息。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8553瀏覽量
136931 -
Siri
+關(guān)注
關(guān)注
4文章
206瀏覽量
38660 -
語音助手
+關(guān)注
關(guān)注
7文章
241瀏覽量
27606
原文標(biāo)題:蘋果為Siri引入機(jī)器學(xué)習(xí)技術(shù):不再認(rèn)錯(cuò)主人!
文章出處:【微信號(hào):iphone-apple-ipad,微信公眾號(hào):iPhone頻道】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
每年10億美元,蘋果與谷歌官宣合作,Gemini大模型注入Siri
機(jī)器視覺的核心技術(shù)和應(yīng)用場景
穿孔機(jī)頂頭檢測儀 機(jī)器視覺深度學(xué)習(xí)
神經(jīng)網(wǎng)絡(luò)的初步認(rèn)識(shí)
SOLIDWORKS 2025材料明細(xì)表的可視化改進(jìn)
如何在機(jī)器視覺中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)
了解SOLIDWORKS202仿真方面的改進(jìn)
芯科科技Arduino開發(fā)資源重大更新
德國莫爾利用全新的在線配置器改進(jìn)了電纜引入裝置設(shè)計(jì)流程
基于RK3576開發(fā)板的yolov11-track多目標(biāo)跟蹤部署教程
貿(mào)澤電子2025邊緣AI與機(jī)器學(xué)習(xí)技術(shù)創(chuàng)新論壇回顧(上)
FPGA在機(jī)器學(xué)習(xí)中的具體應(yīng)用
基于RK3576開發(fā)板的yolov11-track多目標(biāo)跟蹤部署教程
Siri的重大改進(jìn):為Siri引入機(jī)器學(xué)習(xí)技術(shù)
評論