谷歌在不久前的I/O大會(huì)上推出了輔助人們高效撰寫(xiě)郵件的智能寫(xiě)作助手。在深度神經(jīng)網(wǎng)絡(luò)的幫助下,它可以根據(jù)用戶很少的輸入信息就推斷出接下來(lái)想要寫(xiě)入文本,就如知心好友一般默契無(wú)間了!我們先來(lái)感受一下在它的幫助下寫(xiě)郵件多么暢快:

智能寫(xiě)作是基于一年前谷歌發(fā)布的智能回復(fù)功能進(jìn)一步研發(fā)而成的。先前的智能回復(fù)功能通過(guò)分析郵件內(nèi)容來(lái)幫助用戶快速撰寫(xiě)回復(fù)郵件使用戶在移動(dòng)端處理郵件的效率有了大幅的提升。

它基于人類(lèi)語(yǔ)言中的層級(jí)結(jié)構(gòu),從字母到單詞、從短語(yǔ)到句子、從段落到章節(jié)和整篇完整表達(dá)的內(nèi)容。研究人員們訓(xùn)練出了了一系列層級(jí)模塊用于學(xué)習(xí)、記憶和識(shí)別一種特定的模式。在足夠多樣本的訓(xùn)練下層級(jí)模型取得了比LSTM更好的效果,并具有了一定的語(yǔ)音表達(dá)能力。下圖中藍(lán)色字體就是模型分析郵件后為用戶生成出備選的恢復(fù)內(nèi)容。

但從智能回復(fù)到智能寫(xiě)作助手的研發(fā)過(guò)程中,除了迅速響應(yīng)大規(guī)模用戶的需求、還需要兼顧公平和用戶的隱私。
首先在用戶撰寫(xiě)郵件時(shí),為了不使用戶感受到明顯的延遲,其響應(yīng)需要在100ms以內(nèi),這要求在模型的效率和復(fù)雜度上做有效的權(quán)衡;目前Gmail擁有14億以上的用戶,所以模型需要有足夠的容量滿足各種不同用戶的個(gè)性化需求;除了速度和規(guī)模外,還需要防止這一功能由于訓(xùn)練數(shù)據(jù)產(chǎn)生偏見(jiàn),并且也要符合嚴(yán)格的隱私規(guī)定,防止用戶的隱私信息泄露。由于研究人員不可以進(jìn)入email中,所以所有的機(jī)器學(xué)習(xí)系統(tǒng)都是運(yùn)行在他們不可讀的數(shù)據(jù)集上的。
尋找合適的模型
典型的語(yǔ)言生成模型包括N-Gram、神經(jīng)詞袋和循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,它們通過(guò)先前詞匯預(yù)測(cè)后續(xù)詞匯或者句子。然而在郵件中,模型只有當(dāng)前郵件對(duì)話這一單一的信號(hào)來(lái)預(yù)測(cè)后續(xù)的詞匯。為了更好的理解用戶想要表達(dá)的內(nèi)容,模型同時(shí)還會(huì)分析郵件標(biāo)題和之前郵件的內(nèi)容。
這種需要疊加上下文的文本分析會(huì)帶來(lái)一個(gè)seq2seq機(jī)器翻譯同樣的問(wèn)題,其中源序列是主題和先前郵件內(nèi)容的組合、目標(biāo)序列則是目前用戶正在撰寫(xiě)的郵件。它雖然在但是卻無(wú)法滿足嚴(yán)格的時(shí)間要求。為了改進(jìn)這一點(diǎn),研究人員們將詞袋模型和循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型結(jié)合起來(lái),實(shí)現(xiàn)了比seq2seq更快的的速度,但只在預(yù)測(cè)質(zhì)量上做出了輕微的犧牲。

如上圖所示,在這一混合模型中標(biāo)題和先前的郵件先用詞向量平均處理,而后將他們輸入到接下來(lái)的循環(huán)神經(jīng)網(wǎng)絡(luò)中去解碼。
加速模型訓(xùn)練和服務(wù)
為了加速模型的訓(xùn)練和調(diào)參,研究人員們使用了自家的大殺器TPU,只需要不到一年就能在幾十億的樣本上實(shí)現(xiàn)收斂。
雖然訓(xùn)練速度提高了,但在實(shí)際使用時(shí)候的速度才是用戶最為關(guān)心的指標(biāo)。通過(guò)將CPU的計(jì)算請(qǐng)求分配到TPU上得到了迅速的推理結(jié)果,同時(shí)由于CPU的算力得到了釋放,使得單機(jī)可以提供服務(wù)的用戶數(shù)量大幅增加。
公平性和隱私
對(duì)于機(jī)器學(xué)習(xí)來(lái)說(shuō),公平性和隱私是至關(guān)重要的問(wèn)題。語(yǔ)言模型可以折射出人類(lèi)的認(rèn)知偏見(jiàn),這樣會(huì)生成一系列不希望的句子補(bǔ)全。這些偏見(jiàn)和聯(lián)系主要來(lái)自于語(yǔ)言數(shù)據(jù),這對(duì)于構(gòu)建一個(gè)無(wú)偏模式是巨大的挑戰(zhàn)。于是研究人員們通過(guò)各種方式不斷減弱訓(xùn)練過(guò)程中潛在的偏見(jiàn)。同時(shí)智能寫(xiě)作助手是構(gòu)建于數(shù)十一個(gè)樣本上的訓(xùn)練結(jié)果,只有同時(shí)被多個(gè)用戶確認(rèn)的通用結(jié)果才會(huì)被模型記住。

語(yǔ)言模型中一種常見(jiàn)的性別偏見(jiàn)
在未來(lái)這一模型會(huì)被持續(xù)改進(jìn),并嘗試著加入一些先進(jìn)的模型架構(gòu)(例如transformer和RNMT+等)和先進(jìn)的訓(xùn)練技術(shù),同時(shí)在生產(chǎn)中部署更多的先進(jìn)模型來(lái)滿足實(shí)時(shí)性和要求。個(gè)人語(yǔ)言模型會(huì)在隨后加入以更精確的滿足個(gè)人的寫(xiě)作風(fēng)格和表達(dá)習(xí)慣。
-
谷歌
+關(guān)注
關(guān)注
27文章
6255瀏覽量
111729 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5600瀏覽量
124527
原文標(biāo)題:谷歌如何利用深度學(xué)習(xí)來(lái)實(shí)現(xiàn)智能郵件助手,知你所想想你所寫(xiě)?
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門(mén)創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
【智能檢測(cè)】基于AI深度學(xué)習(xí)與飛拍技術(shù)的影像測(cè)量系統(tǒng):實(shí)現(xiàn)高效精準(zhǔn)的全自動(dòng)光學(xué)檢測(cè)與智能制造數(shù)據(jù)閉環(huán)
深度學(xué)習(xí)+光學(xué)變焦:AI球機(jī)如何實(shí)現(xiàn)集裝箱號(hào)識(shí)別準(zhǔn)確率99.9%#人工智能 #AI識(shí)別 #智慧港口
KeepAlive:組件緩存實(shí)現(xiàn)深度解析
人工智能與機(jī)器學(xué)習(xí)在這些行業(yè)的深度應(yīng)用
基于深度學(xué)習(xí)的集裝箱編號(hào)識(shí)別系統(tǒng)如何實(shí)現(xiàn)邊緣側(cè)毫秒級(jí)推理?#人工智能 #智慧港口 #AI視覺(jué)識(shí)別
谷歌評(píng)論卡,碰一碰即可完成谷歌評(píng)論 #谷歌評(píng)論卡 #NFC標(biāo)簽 #nfc卡
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個(gè)常見(jiàn)錯(cuò)誤與局限性
穿孔機(jī)頂頭檢測(cè)儀 機(jī)器視覺(jué)深度學(xué)習(xí)
如何深度學(xué)習(xí)機(jī)器視覺(jué)的應(yīng)用場(chǎng)景
如何實(shí)現(xiàn)"可用匿名數(shù)據(jù)"# AI# 人工智能# 隱私保護(hù)# 圖像處理# 黑科技# 安全 #深度學(xué)習(xí) #數(shù)據(jù)
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)
如何在機(jī)器視覺(jué)中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)
深度學(xué)習(xí)對(duì)工業(yè)物聯(lián)網(wǎng)有哪些幫助
谷歌如何利用深度學(xué)習(xí)來(lái)實(shí)現(xiàn)智能郵件助手
評(píng)論