91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

詳解多任務(wù)學(xué)習(xí)的方法與現(xiàn)實

深度學(xué)習(xí)自然語言處理 ? 來源:煉丹筆記 ? 作者:十方 ? 2021-04-09 10:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大家在做模型的時候,往往關(guān)注一個特定指標(biāo)的優(yōu)化,如做點擊率模型,就優(yōu)化AUC,做二分類模型,就優(yōu)化f-score。然而,這樣忽視了模型通過學(xué)習(xí)其他任務(wù)所能帶來的信息增益和效果上的提升。通過在不同的任務(wù)中共享向量表達,我們能夠讓模型在各個任務(wù)上的泛化效果大大提升。這個方法就是我們今天要談?wù)摰闹黝}-多任務(wù)學(xué)習(xí)(MTL)。

所以如何判定是不是多任務(wù)學(xué)習(xí)呢?不需要看模型結(jié)構(gòu)全貌,只需要看下loss函數(shù)即可,如果loss包含很多項,每一項都是不同目標(biāo),這個模型就是在多任務(wù)學(xué)習(xí)了。有時,雖然你的模型僅僅是優(yōu)化一個目標(biāo),同樣可以通過多任務(wù)學(xué)習(xí),提升該模型的泛化效果。比如點擊率模型,我們可以通過添加轉(zhuǎn)化樣本,構(gòu)建輔助loss(預(yù)估轉(zhuǎn)化率),從而提升點擊率模型的泛化性。

為什么多任務(wù)學(xué)習(xí)會有效?舉個例子,一個模型已經(jīng)學(xué)會了區(qū)分顏色,如果直接把這個模型用于蔬菜和肉類的分類任務(wù)呢?模型很容易學(xué)到綠色的是蔬菜,其他更大概率是肉。正則化算不算多任務(wù)?正則化的優(yōu)化的loss不僅有本身的回歸/分類產(chǎn)生的loss,還有l(wèi)1/l2產(chǎn)生的loss,因為我們認(rèn)為“正確且不過擬合”的模型的參數(shù)應(yīng)該稀疏,且不易過大,要把這種假設(shè)注入到模型中去學(xué)習(xí),就產(chǎn)生了正則化項,本質(zhì)也是一個額外的任務(wù)。

MTL兩個方法

第一種是hard parameter sharing,如下圖所示:

f855993c-98d3-11eb-8b86-12bb97331649.png

比較簡單,前幾層dnn為各個任務(wù)共享,后面分離出不同任務(wù)的layers。這種方法有效降低了過擬合的風(fēng)險: 模型同時學(xué)習(xí)的任務(wù)數(shù)越多,模型在共享層就要學(xué)到一個通用的嵌入式表達使得每個任務(wù)都表現(xiàn)較好,從而降低過擬合的風(fēng)險。

第二種是soft parameter sharing,如下圖所示:

f86393b6-98d3-11eb-8b86-12bb97331649.png

在這種方法下,每個任務(wù)都有自己的模型,有自己的參數(shù),但是對不同模型之間的參數(shù)是有限制的,不同模型的參數(shù)之間必須相似,由此會有個distance描述參數(shù)之間的相似度,會作為額外的任務(wù)加入到模型的學(xué)習(xí)中,類似正則化項。

多任務(wù)學(xué)習(xí)能提效,主要是由于以下幾點原因:

隱式數(shù)據(jù)增強:每個任務(wù)都有自己的樣本,使用多任務(wù)學(xué)習(xí)的話,模型的樣本量會提升很多。而且數(shù)據(jù)都會有噪聲,如果單學(xué)A任務(wù),模型會把A數(shù)據(jù)的噪聲也學(xué)進去,如果是多任務(wù)學(xué)習(xí),模型因為要求B任務(wù)也要學(xué)習(xí)好,就會忽視掉A任務(wù)的噪聲,同理,模型學(xué)A的時候也會忽視掉B任務(wù)的噪聲,因此多任務(wù)學(xué)習(xí)可以學(xué)到一個更精確的嵌入表達。

注意力聚焦:如果任務(wù)的數(shù)據(jù)噪聲非常多,數(shù)據(jù)很少且非常高維,模型對相關(guān)特征和非相關(guān)特征就無法區(qū)分。多任務(wù)學(xué)習(xí)可以幫助模型聚焦到有用的特征上,因為不同任務(wù)都會反應(yīng)特征與任務(wù)的相關(guān)性。

特征信息竊取:有些特征在任務(wù)B中容易學(xué)習(xí),在任務(wù)A中較難學(xué)習(xí),主要原因是任務(wù)A與這些特征的交互更為復(fù)雜,且對于任務(wù)A來說其他特征可能會阻礙部分特征的學(xué)習(xí),因此通過多任務(wù)學(xué)習(xí),模型可以高效的學(xué)習(xí)每一個重要的特征。

表達偏差:MTL使模型學(xué)到所有任務(wù)都偏好的向量表示。這也將有助于該模型推廣到未來的新任務(wù),因為假設(shè)空間對于足夠多的訓(xùn)練任務(wù)表現(xiàn)良好,對于學(xué)習(xí)新任務(wù)也表現(xiàn)良好。

正則化:對于一個任務(wù)而言,其他任務(wù)的學(xué)習(xí)都會對該任務(wù)有正則化效果。

多任務(wù)深度學(xué)習(xí)模型

Deep Relationship Networks:從下圖,我們可以看到卷積層前幾層是預(yù)訓(xùn)練好的,后幾層是共享參數(shù)的,用于學(xué)習(xí)不同任務(wù)之間的聯(lián)系,最后獨立的dnn模塊用于學(xué)習(xí)各個任務(wù)。

f88c2d4e-98d3-11eb-8b86-12bb97331649.png

Fully-Adaptive Feature Sharing:從另一個極端開始,下圖是一種自底向上的方法,從一個簡單的網(wǎng)絡(luò)開始,并在訓(xùn)練過程中利用相似任務(wù)的分組準(zhǔn)則貪婪地動態(tài)擴展網(wǎng)絡(luò)。貪婪方法可能無法發(fā)現(xiàn)一個全局最優(yōu)的模型,而且只將每個分支分配給一個任務(wù)使得模型無法學(xué)習(xí)任務(wù)之間復(fù)雜的交互。

f89bdcf8-98d3-11eb-8b86-12bb97331649.png

cross-stitch Networks: 如上文中所談到的soft parameter sharing,該模型是兩個完全分離的模型結(jié)構(gòu),該結(jié)構(gòu)用了cross-stitch單元去讓分離的模型學(xué)到不同任務(wù)之間的關(guān)系,如下圖所示,通過在pooling層和全連接層后分別增加cross-stitch對前面學(xué)到的特征表達進行線性融合,再輸出到后面的卷積/全連接模塊。

f8b228dc-98d3-11eb-8b86-12bb97331649.png

A Joint Many-Task Model:如下圖所示,預(yù)定義的層級結(jié)構(gòu)由各個NLP任務(wù)組成,低層級的結(jié)構(gòu)通過詞級別的任務(wù)學(xué)習(xí),如此行分析,組塊標(biāo)注等。中間層級的結(jié)構(gòu)通過句法分析級別的任務(wù)學(xué)習(xí),如句法依存。高層級的結(jié)構(gòu)通過語義級別的任務(wù)學(xué)習(xí)。

f8cabf14-98d3-11eb-8b86-12bb97331649.png

weighting losses with uncertainty:考慮到不同任務(wù)之間相關(guān)度的不確定性,基于高斯似然最大化的多任務(wù)損失函數(shù),調(diào)整每個任務(wù)在成本函數(shù)中的相對權(quán)重。結(jié)構(gòu)如下圖所示,對像素深度回歸、語義和實例分割。

f8f02e34-98d3-11eb-8b86-12bb97331649.png

sluice networks: 下圖模型概括了基于深度學(xué)習(xí)的MTL方法,如硬參數(shù)共享和cross-stitch網(wǎng)絡(luò)、塊稀疏正則化方法,以及最近創(chuàng)建任務(wù)層次結(jié)構(gòu)的NLP方法。該模型能夠?qū)W習(xí)到哪些層和子空間應(yīng)該被共享,以及網(wǎng)絡(luò)在哪些層學(xué)習(xí)了輸入序列的最佳表示。

f90a94e0-98d3-11eb-8b86-12bb97331649.png

ESSM: 在電商場景下,轉(zhuǎn)化是指從點擊到購買。在CVR預(yù)估時候,我們往往會遇到兩個問題:樣本偏差和數(shù)據(jù)系數(shù)問題。樣本偏差是指訓(xùn)練和測試集樣本不同,拿電商舉例,模型用點擊的數(shù)據(jù)來訓(xùn)練,而預(yù)估的卻是整個樣本空間。數(shù)據(jù)稀疏問題就更嚴(yán)重了,本身點擊樣本就很少,轉(zhuǎn)化就更少了,所以可以借鑒多任務(wù)學(xué)習(xí)的思路,引入輔助學(xué)習(xí)任務(wù),擬合pCTR和pCTCVR(pCTCVR = pCTR * pCVR),如下圖所示:

f9222772-98d3-11eb-8b86-12bb97331649.png

對于pCTR來說,可將有點擊行為的曝光事件作為正樣本,沒有點擊行為的曝光事件作為負(fù)樣本

對于pCTCVR來說,可將同時有點擊行為和購買行為的曝光事件作為正樣本,其他作為負(fù)樣本

對于pCVR來說,只有曝光沒有點擊的樣本中的梯度也能回傳到main task的網(wǎng)絡(luò)中

另外這兩個子網(wǎng)絡(luò)的embedding層是共享的,由于CTR任務(wù)的訓(xùn)練樣本量要遠(yuǎn)超過CVR任務(wù)的訓(xùn)練樣本量,從而能夠緩解訓(xùn)練數(shù)據(jù)稀疏性問題。

DUPN:模型分為行為序列層、Embedding層、LSTM層、Attention層、下游多任務(wù)層(CTR、LTR、時尚達人關(guān)注預(yù)估、用戶購買力度量)。如下圖所示

f988fc86-98d3-11eb-8b86-12bb97331649.png

f9c070b2-98d3-11eb-8b86-12bb97331649.png

f9cefc54-98d3-11eb-8b86-12bb97331649.png

MMOE: 如下圖所示,模型(a)最常見,共享了底層網(wǎng)絡(luò),上面分別接不同任務(wù)的全連接層。模型(b)認(rèn)為不同的專家可以從相同的輸入中提取出不同的特征,由一個Gate(類似) attention結(jié)構(gòu),把專家提取出的特征篩選出各個task最相關(guān)的特征,最后分別接不同任務(wù)的全連接層。MMOE的思想就是對于不同任務(wù),需要不同專家提取出的信息,因此每個任務(wù)都需要一個獨立的gate。

fa157c56-98d3-11eb-8b86-12bb97331649.png

PLE:即使通過MMoE這種方式減輕負(fù)遷移現(xiàn)象,蹺蹺板現(xiàn)象仍然是廣泛存在的(蹺蹺板現(xiàn)象指多任務(wù)之間相關(guān)性不強時,信息共享就會影響模型效果,會出現(xiàn)一個任務(wù)泛化性變強,另一個變?nèi)醯默F(xiàn)象)。PLE的本質(zhì)是MMOE的改進版本,有些expert是任務(wù)專屬,有些expert是共享的,如下圖CGC架構(gòu),對于任務(wù)A而言,通過A的gate把A的expert和共享的expert進行融合,去學(xué)習(xí)A。

fa58e4dc-98d3-11eb-8b86-12bb97331649.png

最終PLE結(jié)構(gòu)如下,融合了定制的expert和MMOE,堆疊多層CGC架構(gòu),如下所示:

fa8c8c92-98d3-11eb-8b86-12bb97331649.png

參考文獻

1. An overview of multi-task learning in deep neural networks. Retireved from https://arxiv.org/pdf/1706.05098.pdf

2. Long, M., & Wang, J. (2015)。 Learning Multiple Tasks with Deep Relationship Networks. arXiv Preprint arXiv:1506.02117. Retrieved from http://arxiv.org/abs/1506.02117

3. Lu, Y., Kumar, A., Zhai, S., Cheng, Y., Javidi, T., & Feris, R. (2016)。 Fully-adaptive Feature Sharing in Multi-Task Networks with Applications in Person Attribute Classification. Retrieved from http://arxiv.org/abs/1611.05377

4. Misra, I., Shrivastava, A., Gupta, A., & Hebert, M. (2016)。 Cross-stitch Networks for Multi-task Learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. https://doi.org/10.1109/CVPR.2016.433

5. Hashimoto, K., Xiong, C., Tsuruoka, Y., & Socher, R. (2016)。 A Joint Many-Task Model: Growing a Neural Network for Multiple NLP Tasks. arXiv Preprint arXiv:1611.01587. Retrieved from http://arxiv.org/abs/1611.01587

6. Yang, Y., & Hospedales, T. (2017)。 Deep Multi-task Representation Learning: A Tensor Factorisation Approach. In ICLR 2017. https://doi.org/10.1002/joe.20070

7. Ruder, S., Bingel, J., Augenstein, I., & S?gaard, A. (2017)。 Sluice networks: Learning what to share between loosely related tasks. Retrieved from http://arxiv.org/abs/1705.08142

8. Entire Space Multi-Task Model: An Effective Approach forEstimating Post-Click Conversion Rate. Retrieved from: https://arxiv.org/pdf/1804.07931.pdf

9. Perceive Your Users in Depth: Learning Universal User Representations from Multiple E-commerce Tasks. Retrieved from: https://arxiv.org/pdf/1805.10727.pdf
編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 多任務(wù)
    +關(guān)注

    關(guān)注

    0

    文章

    18

    瀏覽量

    9334
  • AUC
    AUC
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    6998
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124423

原文標(biāo)題:一文"看透"多任務(wù)學(xué)習(xí)

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    嵌入式單片機開發(fā)學(xué)習(xí)路徑

    項目 通過完成一些簡單的項目來鞏固所學(xué)知識。例如,制作一個簡單的LED閃爍電路或溫度傳感器測量系統(tǒng)。 4. 高級進階 4.1 操作系統(tǒng)學(xué)習(xí) 學(xué)習(xí)嵌入式操作系統(tǒng)(如FreeRTOS),理解多任務(wù)
    發(fā)表于 02-09 15:42

    一文說透了如何實現(xiàn)單片機的多任務(wù)并發(fā)!

    在嵌入式系統(tǒng)開發(fā)中,多任務(wù)并發(fā)是非常常見的,對于處理復(fù)雜的應(yīng)用場景、提升系統(tǒng)的并發(fā)能力、提高系統(tǒng)的實時性等方面都有很大好處。在單片機中實現(xiàn)多任務(wù)并發(fā)是非常重要的,本文將為大家介紹如何在單片機中實現(xiàn)
    發(fā)表于 01-06 06:46

    高導(dǎo)熱灌封膠如何驗證?詳解導(dǎo)熱系數(shù)的精準(zhǔn)測試方法與影響因素 | 鉻銳特實業(yè)

    高導(dǎo)熱灌封膠導(dǎo)熱系數(shù)如何精準(zhǔn)驗證?本文詳解ASTM D5470等主流測試方法、影響實測值的關(guān)鍵因素及專業(yè)判斷標(biāo)準(zhǔn),幫助您甄選真正可靠的產(chǎn)品。 | 鉻銳特實業(yè)
    的頭像 發(fā)表于 12-04 11:37 ?645次閱讀
    高導(dǎo)熱灌封膠如何驗證?<b class='flag-5'>詳解</b>導(dǎo)熱系數(shù)的精準(zhǔn)測試<b class='flag-5'>方法</b>與影響因素 | 鉻銳特實業(yè)

    分享一個嵌入式開發(fā)學(xué)習(xí)路線

    拓展期(3-4個月) 學(xué)習(xí)嵌入式操作系統(tǒng)(RTOS)和物聯(lián)網(wǎng)通信技術(shù),能開發(fā)“多任務(wù)、聯(lián)網(wǎng)”的復(fù)雜項目,理解企業(yè)級嵌入式開發(fā)的“架構(gòu)思維”。這一階段的學(xué)習(xí)需要一定的自律和毅力,但與學(xué)歷無關(guān)。 嵌入式
    發(fā)表于 12-04 11:01

    多任務(wù)系統(tǒng)中,如何平衡任務(wù)調(diào)度以防止因高負(fù)載導(dǎo)致的再次進入低功耗模式的延遲?

    多任務(wù)系統(tǒng)中,如何平衡任務(wù)調(diào)度以防止因高負(fù)載導(dǎo)致的再次進入低功耗模式的延遲?
    發(fā)表于 12-04 06:37

    學(xué)習(xí)RTOS的意義?

    RTOS實現(xiàn)多任務(wù)管理。 嵌入式操作系統(tǒng)有眾多的軟件組件,可以極大的加速項目進度,避免重復(fù)造車輪。 2.技能需要 掌握操作系統(tǒng),和基于RTOS的編程,實現(xiàn)更好的職業(yè)規(guī)劃,對個人發(fā)展是必不可少的。 在招聘網(wǎng)
    發(fā)表于 11-27 08:16

    freertos關(guān)閉任務(wù)調(diào)度的方法

    #include \"FreeRTOS.h\" #include \"task.h\" /* 關(guān)閉任務(wù)調(diào)度 */ void
    發(fā)表于 11-17 06:47

    一句話,多個命令同時執(zhí)行,AI語音模組也能多任務(wù)處理?

    、 Ai-WV02-32S ? 將語音識別、喚醒、語義理解等核心功能, 濃縮在一顆小小的模組中。 安信可AI語音模組支持 MCP 協(xié)議(Multi Command Processing,多命令并行處理) ,讓語音交互從“單線程”進化為真正的“多任務(wù)協(xié)同”! 一句話喚醒“多任務(wù)
    的頭像 發(fā)表于 10-31 14:45 ?536次閱讀
    一句話,多個命令同時執(zhí)行,AI語音模組也能<b class='flag-5'>多任務(wù)</b>處理?

    愛普科技PSRAM加速wisun無線模塊多任務(wù)處理

    愛普科技256Mb PSRAM(如APS256XXN-OBR-BG)為WiSUN無線模塊提供高速數(shù)據(jù)緩存與臨時存儲解決方案,其166MHz速率、1.8V低功耗及小尺寸封裝顯著提升模塊在智能電網(wǎng)、工業(yè)自動化中的多任務(wù)處理能力和穩(wěn)定性。
    的頭像 發(fā)表于 10-14 09:25 ?397次閱讀
    愛普科技PSRAM加速wisun無線模塊<b class='flag-5'>多任務(wù)</b>處理

    教程來啦!LuatOS中的消息通信機制詳解及其應(yīng)用場景

    。 LuatOS 的消息機制是其多任務(wù)協(xié)作和事件驅(qū)動編程的核心部分,主要通過?sys?核心庫實現(xiàn)。 消息機制包括消息的發(fā)送、接收、訂閱,以及系統(tǒng)消息的定義和使用,下面分別詳細(xì)描述其原理和使用方法。 一、LuatOS 消息機制的原理 1.1 消息機制的基本原理
    的頭像 發(fā)表于 09-26 18:59 ?443次閱讀
    教程來啦!LuatOS中的消息通信機制<b class='flag-5'>詳解</b>及其應(yīng)用場景

    揭秘LuatOS Task:多任務(wù)管理的“智能中樞”

    Task任務(wù)作為LuatOS的核心組成部分,通過智能化的任務(wù)管理機制,實現(xiàn)任務(wù)的創(chuàng)建、調(diào)度與協(xié)同運行,讓復(fù)雜應(yīng)用得以高效并行處理,滿足實時場景下的嚴(yán)苛需求。 sys核心庫是LuatOS運行框架庫
    的頭像 發(fā)表于 08-28 13:48 ?668次閱讀
    揭秘LuatOS Task:<b class='flag-5'>多任務(wù)</b>管理的“智能中樞”

    同步任務(wù)開發(fā)指導(dǎo)

    。 由于TaskPool偏向于單個獨立的任務(wù),因此當(dāng)各個同步任務(wù)之間相對獨立時推薦使用TaskPool,例如一系列導(dǎo)入的靜態(tài)方法,或者單例實現(xiàn)的方法。如果同步
    發(fā)表于 06-19 07:57

    多任務(wù)處理卡頓頻發(fā),無風(fēng)扇工控機如何優(yōu)化性能?聚徽廠家一文讀懂

    在工業(yè)自動化、物聯(lián)網(wǎng)等領(lǐng)域的深度應(yīng)用中,無風(fēng)扇工控機常常需要同時運行數(shù)據(jù)采集、實時監(jiān)控、程序控制等多個任務(wù)。然而,頻繁出現(xiàn)的多任務(wù)處理卡頓問題,不僅影響生產(chǎn)效率,還可能導(dǎo)致數(shù)據(jù)丟失、系統(tǒng)崩潰等
    的頭像 發(fā)表于 06-03 15:25 ?828次閱讀

    快速入門——LuatOS:sys庫多任務(wù)管理實戰(zhàn)攻略!

    在嵌入式開發(fā)中,多任務(wù)管理是提升系統(tǒng)效率的關(guān)鍵。本教程專為快速入門設(shè)計,聚焦LuatOS的sys庫,通過實戰(zhàn)案例帶你快速掌握多任務(wù)創(chuàng)建、調(diào)度與同步技巧。無論你是零基礎(chǔ)新手還是希望快速提升開發(fā)效率
    的頭像 發(fā)表于 05-29 14:36 ?870次閱讀
    快速入門——LuatOS:sys庫<b class='flag-5'>多任務(wù)</b>管理實戰(zhàn)攻略!

    iMX8DXL有什么方法可以使所有與SPI相關(guān)的任務(wù)在單核中工作?

    我們使用的是 iMX8DXL 處理器。有什么方法可以使所有與 SPI 相關(guān)的任務(wù)在單核中工作?請告訴我們是否有任何程序或示例可以這樣做。
    發(fā)表于 03-31 06:47