91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

放棄 RNN 和 LSTM 吧,它們真的不好用

8g3K_AI_Thinker ? 來(lái)源:未知 ? 作者:胡薇 ? 2018-04-25 09:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2014 年 RNN/LSTM 起死回生。自此,RNN/LSTM 及其變種逐漸被廣大用戶接受和認(rèn)可。起初,LSTM 和 RNN 只是一種解決序列學(xué)習(xí)和序列翻譯問(wèn)題的方法(seq2seq),隨后被用于語(yǔ)音識(shí)別并有很好的效果,比如 Siri,Cortana,Alexa 等;此外,這種技術(shù)在機(jī)器翻譯領(lǐng)域也有應(yīng)用,比如 Google Translate。

2015-2016 年,新的 ResNet 和 Attention 技術(shù)出現(xiàn)。實(shí)際上,我們可以將 LSTM 理解為一種巧妙地 bypass technique,而 attention 的成功表明了 MLP(多層感知器)網(wǎng)絡(luò)可以被上下文向量影響的平均網(wǎng)絡(luò)(averaging network)所替代。

兩年過(guò)去了,我們現(xiàn)在已經(jīng)可以給出結(jié)論:

放棄 RNN 和 LSTM 吧,它們真的不好用

基于 attention 的網(wǎng)絡(luò)逐漸被越來(lái)越多的企業(yè)采用,比如 Google,F(xiàn)acebook,Salesforce 等公司都已經(jīng)開始用基于attention的模型來(lái)替換RNN和其變種。RNN 在各種應(yīng)用場(chǎng)景下時(shí)日無(wú)多,因?yàn)橄啾然?attention 的模型,RNN 需要更多的資源來(lái)訓(xùn)練和運(yùn)行。

編者注:訓(xùn)練 RNN 和 LSTM 是非常困難的,因?yàn)橛?jì)算能力受到內(nèi)存和帶寬等的約束。這同時(shí)也是硬件設(shè)計(jì)者的噩夢(mèng),并最終限制了神經(jīng)網(wǎng)絡(luò)解決方案的適用性。簡(jiǎn)而言之,每個(gè) LSTM 單元需要 4 個(gè)線性層(MLP 層),以便每個(gè)順序時(shí)間步運(yùn)行一次。線性層需要大量的內(nèi)存帶寬才能執(zhí)行計(jì)算;由于系統(tǒng)沒(méi)有足夠的內(nèi)存帶寬將數(shù)據(jù)饋送到計(jì)算單元,實(shí)際上它們無(wú)法使用許多計(jì)算單元。添加更多的計(jì)算單元很容易,但添加更多的內(nèi)存帶寬卻很難。因此,RNN/LSTM 及其變種并不和硬件加速非常匹配,一個(gè)可能的解決方案就是讓計(jì)算在存儲(chǔ)器設(shè)備中完成。

為什么 RNN/LSTM 真的不好用?

RNN,LSTM及其變種主要使用序列處理,如下圖所示:

圖1 RNN中的序列處理

圖中的箭頭表示長(zhǎng)期信息在進(jìn)入當(dāng)前的處理單元前需要有序地進(jìn)入所有其他的處理單元。也就是說(shuō),這很容易通過(guò)多次乘小于 0 的數(shù)字來(lái)進(jìn)行破壞和攻擊,這就是梯度消失的原因。

梯度消失可以利用 LSTM 模塊來(lái)補(bǔ)救,目前的 LSTM 可是看作是多交換網(wǎng)關(guān),有點(diǎn)像 ResNet。因?yàn)?LSTM 可以繞過(guò)一些單元,對(duì)長(zhǎng)時(shí)間的步驟進(jìn)行記憶,因此 LSTM 可以一定程度上解決梯度消失的問(wèn)題。

圖2 LSTM中的序列處理

從圖2可以看出,從前面的單元傳遞來(lái)當(dāng)前單元的序列路徑依然存在。事實(shí)上,因?yàn)檫@條路徑會(huì)不斷添加并且會(huì)遺忘與之相關(guān)的路徑分支,它會(huì)變得越來(lái)越復(fù)雜。LSTM、GRU 及其變體能學(xué)習(xí)大量的長(zhǎng)期信息,但它們最多只能記住約 100s 的長(zhǎng)期信息,而不是 1000s,10000s 甚至更長(zhǎng)時(shí)間的信息。

RNN 還有一個(gè)問(wèn)題就是并不與所有硬件兼容。如果要快速訓(xùn)練 RNN,那么就需要大量的計(jì)算資源,而這正是我們?nèi)鄙俚?。如果在云上運(yùn)行 RNN 模型的話,也會(huì)消耗比其他模型更多的資源。隨著語(yǔ)音轉(zhuǎn)文本需求的快速增長(zhǎng),云端的擴(kuò)展也變得更加困難。

你需要做些什么?

因?yàn)榇蠖鄶?shù)時(shí)間我們處理的都是實(shí)時(shí)的因果數(shù)據(jù)(casual data),我們想利用這些已知的數(shù)據(jù)來(lái)為之后的決策做準(zhǔn)備。那如果可以避免進(jìn)行序列處理,我們就可以找出更好的 look-ahead 和 look-back 的單元,這樣的 look-ahead/back 就叫做 neural attention 模塊。

這種補(bǔ)救方法融合了多個(gè) neural attention 模塊,組成了一個(gè)分層的 neural attention 編碼器,如圖3所示:

圖3 分層 neural attention 編碼器

還有一種更好地分析過(guò)去的方法就是用 attention 模塊把過(guò)去所有的編碼向量總結(jié)為一個(gè)上下文向量 Ct。

這里還有一個(gè) attention 模塊的分層,與神經(jīng)網(wǎng)絡(luò)和時(shí)間卷積網(wǎng)絡(luò)(Temporal convolutional network)的分層非常像。分層神經(jīng) attention 編碼器的多層 attention 能查看過(guò)去信息的一小部分,比如說(shuō) 100 個(gè)向量,而上面分層的attention模塊還能查看到 100 個(gè)下層的注意力模塊,也就是 100×100 個(gè)向量。這極大地?cái)U(kuò)展了分層神經(jīng) attention 編碼器的能力。

更重要的是將傳播向量傳輸?shù)骄W(wǎng)絡(luò)輸出所需要的路徑長(zhǎng)度:在分層網(wǎng)絡(luò)中,路徑長(zhǎng)度與 Log(N)成比例的,其中 N 是分層的層數(shù)。這與 RNN 需要執(zhí)行的T步驟形成了對(duì)照,其中 T 是需要記住的順序的最大長(zhǎng)度,而 T >> N。

Neural Turing Machines(NTM,神經(jīng)圖靈機(jī))的架構(gòu)也與圖3類似,但是 NTM 是讓神經(jīng)網(wǎng)絡(luò)來(lái)決定通過(guò) attention 從內(nèi)存中讀取什么的。也就是說(shuō),真實(shí)的神經(jīng)網(wǎng)絡(luò)將決定哪個(gè)過(guò)去的向量對(duì)未來(lái)的決策更重要。

在內(nèi)存存儲(chǔ)方面。與 NTM 不同,上面的架構(gòu)把所有之前的表示都儲(chǔ)存在內(nèi)存里,這就會(huì)造成效率比較低的問(wèn)題。有一個(gè)解決的辦法就是增加另外一個(gè)單元來(lái)防止有相互關(guān)系的數(shù)據(jù)多次保存。當(dāng)前科學(xué)研究的重點(diǎn)是由應(yīng)用去決定保存哪些向量,哪些不保存。

目前許多的公司仍在使用 RNN/LSTM 來(lái)進(jìn)行語(yǔ)音轉(zhuǎn)文本的工作,都沒(méi)有意識(shí)到這種網(wǎng)絡(luò)結(jié)構(gòu)在效率和可擴(kuò)展性上的缺點(diǎn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3951

    瀏覽量

    142581
  • rnn
    rnn
    +關(guān)注

    關(guān)注

    0

    文章

    92

    瀏覽量

    7345

原文標(biāo)題:放棄 RNN/LSTM 吧,因?yàn)檎娴牟缓糜?!望周知~

文章出處:【微信號(hào):AI_Thinker,微信公眾號(hào):人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    一體成型電感:電源工程師的“小方塊”,卻決定著你的電源好不好用

    電源工程師的日常,除了算紋波、看效率、改 PCB,還有一個(gè)固定動(dòng)作:對(duì)著一堆電感 datasheet 發(fā)呆——“這個(gè)尺寸太大,那個(gè)電流不夠,這個(gè) DCR 又太高……”而在眾多電感中,有一類器件越來(lái)越受青睞:一體成型電感??雌饋?lái)只是個(gè)小方塊,卻在很多項(xiàng)目里默默決定了電源好不好用、機(jī)器穩(wěn)不穩(wěn)定。
    的頭像 發(fā)表于 12-26 15:01 ?358次閱讀
    一體成型電感:電源工程師的“小方塊”,卻決定著你的電源好<b class='flag-5'>不好用</b>

    一文讀懂LSTMRNN:從原理到實(shí)戰(zhàn),掌握序列建模核心技術(shù)

    在AI領(lǐng)域,文本翻譯、語(yǔ)音識(shí)別、股價(jià)預(yù)測(cè)等場(chǎng)景都離不開序列數(shù)據(jù)處理。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)作為最早的序列建模工具,開創(chuàng)了“記憶歷史信息”的先河;而長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)則通過(guò)創(chuàng)新設(shè)計(jì),突破
    的頭像 發(fā)表于 12-09 13:56 ?1362次閱讀
    一文讀懂<b class='flag-5'>LSTM</b>與<b class='flag-5'>RNN</b>:從原理到實(shí)戰(zhàn),掌握序列建模核心技術(shù)

    請(qǐng)問(wèn)CW32L系列的Vcore一般怎么設(shè)計(jì)外圍電路?

    我看有很多都設(shè)計(jì)上拉并且串聯(lián)個(gè)電容接地,這種電路不好用???怎么回事兒?
    發(fā)表于 12-08 06:44

    儲(chǔ)能EMS控制器(4) — 控制策略適配很繁瑣不好用怎么辦?

    視頻推薦控制策略適配很繁瑣?開發(fā)慢?工商儲(chǔ)能項(xiàng)目中,較為多變的是策略適配。儲(chǔ)能EMS控制器,以靈活的框架設(shè)定,提供標(biāo)準(zhǔn)的內(nèi)置策略與AI策略,并支持自定義開發(fā)策略,快速完成項(xiàng)目需求。本地EMS策略介紹儲(chǔ)能系統(tǒng)在應(yīng)用場(chǎng)景中,常承擔(dān)著削峰填谷套利、電力穩(wěn)定等作用。EMS是儲(chǔ)能系統(tǒng)中的必備裝置和系統(tǒng)之一,是儲(chǔ)能系統(tǒng)的“大腦”,負(fù)責(zé)著各種協(xié)調(diào)與應(yīng)用工作。ZLG致遠(yuǎn)電子
    的頭像 發(fā)表于 12-03 11:42 ?742次閱讀
    儲(chǔ)能EMS控制器(4) — 控制策略適配很繁瑣<b class='flag-5'>不好用</b>怎么辦?

    FM430-EX固定式掃碼器好用嗎?解析實(shí)用功能與優(yōu)點(diǎn)

    在物流分揀、產(chǎn)線管控、自助設(shè)備等場(chǎng)景中,固定式掃碼器已成為提升效率的核心工具。新大陸NLS-FM430-EX作為熱門的固定式條碼掃描器,憑借硬核性能收獲眾多企業(yè)青睞。這款二維碼固定式掃描器究竟好不好用
    的頭像 發(fā)表于 11-10 15:28 ?367次閱讀
    FM430-EX固定式掃碼器<b class='flag-5'>好用</b>嗎?解析實(shí)用功能與優(yōu)點(diǎn)

    ST AEKD-AICAR1:基于邊緣AI的汽車狀態(tài)分類開發(fā)套件解析

    STMicroelectronics AEKD-AICAR1車用AI套件基于長(zhǎng)短期記憶 (LSTM) 循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)。該套件提供汽車狀態(tài)分類:汽車停車、普通道路行車、崎嶇道路行車、汽車打滑或轉(zhuǎn)彎。AEKD-AICAR1中的創(chuàng)新想法是定義具有嵌入式人工智能處理功能
    的頭像 發(fā)表于 10-28 14:40 ?580次閱讀
    ST AEKD-AICAR1:基于邊緣AI的汽車狀態(tài)分類開發(fā)套件解析

    電能質(zhì)量在線監(jiān)測(cè)裝置在實(shí)際應(yīng)用中如何選擇有線或無(wú)線通信技術(shù)?

    電能質(zhì)量在線監(jiān)測(cè)裝置選擇有線或無(wú)線通信技術(shù),核心是 **“先解決‘能不能用’,再優(yōu)化‘好不好用’”**—— 以 “布線可行性” 為首要前提,再結(jié)合數(shù)據(jù)需求、環(huán)境特征、成本投入三維度綜合判斷,避免單純依賴技術(shù)優(yōu)劣選擇。
    的頭像 發(fā)表于 10-24 18:16 ?2188次閱讀

    干擾可以提高測(cè)量精度,是真的嗎?

    一、前言 水可以引燃蠟燭,是真的嗎?是真的! 蛇怕雄黃,是真的嗎?是假的! 上述兩個(gè)現(xiàn)象,已經(jīng)由央視 財(cái)經(jīng)頻道《是真的嗎?》揭秘。 今天要探討的是: 干擾可以提高測(cè)量精度,是
    的頭像 發(fā)表于 08-04 09:28 ?691次閱讀
    干擾可以提高測(cè)量精度,是<b class='flag-5'>真的</b>嗎?

    阿童木雙張檢測(cè)器好不好用?用數(shù)據(jù)和場(chǎng)景說(shuō)話

    在工業(yè)生產(chǎn)中,雙張疊料檢測(cè)是保障產(chǎn)線穩(wěn)定與產(chǎn)品質(zhì)量的關(guān)鍵環(huán)節(jié)。阿童木雙張檢測(cè)器憑借技術(shù)創(chuàng)新和行業(yè)落地經(jīng)驗(yàn),成為眾多企業(yè)的選擇。但它究竟“好不好用”?本文將從性能表現(xiàn)、場(chǎng)景適配、用戶反饋三大維度展開
    的頭像 發(fā)表于 05-22 11:39 ?770次閱讀
    阿童木雙張檢測(cè)器好<b class='flag-5'>不好用</b>?用數(shù)據(jù)和場(chǎng)景說(shuō)話

    電子工廠ERP好不好用

    在電子制造業(yè)競(jìng)爭(zhēng)日益激烈的當(dāng)下,企業(yè)都在尋找提升效率、降低成本的解決方案,而ERP系統(tǒng)成為了眾多企業(yè)的選擇。那么,電子工廠ERP系統(tǒng)到底好不好用呢?本文將從多個(gè)實(shí)際應(yīng)用場(chǎng)景出發(fā),為你揭開答案。一
    的頭像 發(fā)表于 05-12 09:58 ?629次閱讀
    電子工廠ERP好<b class='flag-5'>不好用</b>

    fpga畫圖:用什么軟件畫圖好用?

    用什么軟件畫圖好用
    發(fā)表于 05-08 15:33

    Tektronix泰克MSO4054示波器按鈕失靈維修案例

    近期某客戶送修一臺(tái)泰克MSO4054示波器,報(bào)修故障是按鈕失靈。對(duì)儀器進(jìn)行初步檢測(cè),確定故障為儀器缺縮放旋鈕。儀器屏幕下側(cè)按鍵串鍵、細(xì)調(diào)按鈕和放大按鍵不好用。
    的頭像 發(fā)表于 04-24 16:06 ?745次閱讀
    Tektronix泰克MSO4054示波器按鈕失靈維修案例

    樹莓派OS 的屏幕鍵盤不好用?這個(gè)方法可以解決問(wèn)題!

    導(dǎo)語(yǔ)如果你有一臺(tái)樹莓派的觸摸屏或者HMI產(chǎn)品,希望使用屏幕虛擬鍵盤輸入信息時(shí),會(huì)出現(xiàn)下面的困惑,默認(rèn)打開的鍵盤只有一點(diǎn)點(diǎn),不能鋪滿整個(gè)屏幕,用起來(lái)很不方便,最后只能放棄改用外部的USB鍵盤
    的頭像 發(fā)表于 03-25 09:19 ?1487次閱讀
    樹莓派OS 的屏幕鍵盤<b class='flag-5'>不好用</b>?這個(gè)方法可以解決問(wèn)題!

    請(qǐng)問(wèn)有什么好用的串口工具嗎?

    有什么好用的串口工具嗎,求推薦
    發(fā)表于 03-10 06:28

    開源mlops平臺(tái)好用

    在MLOps平臺(tái)的選擇上,開源平臺(tái)因其成本效益、靈活性以及社區(qū)支持等優(yōu)勢(shì),受到了越來(lái)越多開發(fā)者和企業(yè)的青睞。那么,開源MLOps平臺(tái)真的好用嗎?下面,AI部落小編帶您了解。
    的頭像 發(fā)表于 03-05 11:09 ?689次閱讀