91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

<button id="ygy4o"></button>

<code id="ygy4o"></code>

<style id="dfc3p"></style>

<s id="dfc3p"><nobr id="dfc3p"></nobr></s>

<nav id="dfc3p"></nav>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統(tǒng)消息
評論與回復(fù)

查看更多

查看更多

查看更多

VIP于到期續(xù)費(fèi)

登錄后你可以

下載海量資料
學(xué)習(xí)在線課程
觀看技術(shù)視頻
寫文章/發(fā)帖/加入社區(qū)

會(huì)員中心

創(chuàng)作中心

發(fā)布

創(chuàng)作活動(dòng)

完善資料讓更多小伙伴認(rèn)識你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

基于對抗自注意力機(jī)制的預(yù)訓(xùn)練語言模型

Introduction

本文提出了 Adversarial Self-Attention 機(jī)制（ASA），利用對抗訓(xùn)練重構(gòu) Transformer 的注意力，使模型在被污染的模型結(jié)構(gòu)中得到訓(xùn)練。嘗試解決的問題：

大量的證據(jù)表明，自注意力可以從 allowing bias 中獲益，allowing bias 可以將一定程度的先驗(yàn)（如 masking，分布的平滑）加入原始的注意力結(jié)構(gòu)中。這些先驗(yàn)知識能夠讓模型從較小的語料中學(xué)習(xí)有用的知識。但是這些先驗(yàn)知識一般是任務(wù)特定的知識，使得模型很難擴(kuò)展到豐富的任務(wù)上。

adversarial training 通過給輸入內(nèi)容添加擾動(dòng)來提升模型的魯棒性。作者發(fā)現(xiàn)僅僅給 input embedding 添加擾動(dòng)很難 confuse 到 attention maps. 模型的注意在擾動(dòng)前后沒有發(fā)生變化。

為了解決上述問題，作者提出了 ASA，具有以下的優(yōu)勢：

最大化 empirical training risk，在自動(dòng)化構(gòu)建先驗(yàn)知識的過程學(xué)習(xí)得到biased（or adversarial）的結(jié)構(gòu)。

adversial 結(jié)構(gòu)是由輸入數(shù)據(jù)學(xué)到，使得 ASA 區(qū)別于傳統(tǒng)的對抗訓(xùn)練或自注意力的變體。

使用梯度反轉(zhuǎn)層來將 model 和 adversary 結(jié)合為整體。

ASA 天然具有可解釋性。

Preliminary

表示輸入的特征，在傳統(tǒng)的對抗訓(xùn)練中，通常是 token 序列或者是 token 的 embedding，表示 ground truth. 對于由參數(shù)化的模型，模型的預(yù)測結(jié)果可以表示為。

2.1 Adversarial training

對抗訓(xùn)練的目的是旨在通過推近經(jīng)過擾動(dòng)的模型預(yù)測和目標(biāo)分布之間的距離來提升模型的魯棒性：

其中代表經(jīng)過對抗擾動(dòng) 擾動(dòng)后的模型預(yù)測，表示模型的目標(biāo)分布。對抗擾動(dòng) 通過最大化 empirical training risk 獲得：

其中是對做出的約束，希望在較小的情況下給模型造成較大的擾動(dòng)。上述的兩個(gè)表示展示的就是對抗的過程。

2.2General Self-Attention

定義自注意力的表達(dá)式為：

在最普通的自注意力機(jī)制中代表全等矩陣，而之前的研究中，代表的是用來平滑注意力結(jié)構(gòu)的輸出分布的一定程度的先驗(yàn)知識。作者在本文將定義為元素為的 binary 矩陣。

Adversarial Self-Attention Mechanism

3.1 Optimization

ASA 的目的是掩蓋模型中最脆弱的注意力單元。這些最脆弱的單元取決于模型的輸入，因此對抗可以表示為由輸入學(xué)習(xí)到的“meta-knowledge”：，ASA 注意力可以表示為：

與對抗訓(xùn)練類似，模型用來最小化如下的 divergence：

通過最大化 empirical risk 估計(jì)得到：

其中表示的是的決策邊界，用來防止 ASA 損害模型的訓(xùn)練。

考慮到以 attention mask 的形式存在，因此更適合通過約束 masked units 的比例來約束。由于很難測量。的具體數(shù)值，因此將 hard constraint 轉(zhuǎn)化為具有懲罰的 unconstraint：

其中 t 用來控制對抗的程度。

3.2 Implementation

作者提出了 ASA 的簡單且快速的實(shí)現(xiàn)。

對于第自注意力層，可以由輸入的隱層狀態(tài)獲得。具體而言，使用線性層將隱層狀態(tài)轉(zhuǎn)化為以及，通過點(diǎn)乘獲得矩陣，再通過重參數(shù)化技巧將矩陣 binary 化。由于對抗訓(xùn)練通常包括 inner maximization 以及 outer minimization 兩個(gè)目標(biāo)，因此至少需要兩次 backward 過程。因此為了加速訓(xùn)練，作者采用了 Gradient Reversal Layer（GRL）將兩個(gè)過程合并。

3.3 Training

訓(xùn)練目標(biāo)如下所示：

表示 task- specific 損失，表示加上 ASA 對抗后的損失，表示對于對于的約束。

Experiments

4.1Result

從上表可以看出，在微調(diào)方面，ASA 支持的模型始終在很大程度上超過了原始的BERT 和 RoBERTa. 可以看到，ASA 在小規(guī)模數(shù)據(jù)集比如說 STS-B，DREAM 上表現(xiàn)優(yōu)異（一般認(rèn)為這些小規(guī)模數(shù)據(jù)集上更容易過擬合）同時(shí)在更大規(guī)模的數(shù)據(jù)集上如 MNLI，QNLI 以及 QQP 上仍然有較好的提升，說明了 ASA 在提升模型泛化能力的同時(shí)能提升模型的語言表示能力。如下表所示，ASA 在提升模型魯棒性上具有較大的作用。

4.2 分析實(shí)驗(yàn)

1. VS. Naive smoothing 將 ASA 與其他注意力平滑方式進(jìn)行比較。

2. VS. Adversial training 將 ASA 與其他對抗訓(xùn)練方式進(jìn)行比較

4.3Visualization

1. Why ASA improves generalization 對抗能夠減弱關(guān)鍵詞的注意力而讓非關(guān)鍵詞接受更多的注意力。ASA 阻止了模型的懶惰預(yù)測，但敦促它從被污染的線索中學(xué)習(xí)，從而提高了泛化能力。

2. Bottom layers are more vulnerable 可以看到 masking 占比隨著層數(shù)由底層到高層逐漸降低，更高的 masking 占比意味著層的脆弱性更高。

Conclusion

本文提出了 Adversarial Self-Attention mechanism（ASA）來提高預(yù)訓(xùn)練語言模型的泛化性和魯棒性。大量實(shí)驗(yàn)表明本文提出的方法能夠在預(yù)訓(xùn)練和微調(diào)階段提升模型的魯棒性。

·審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

自動(dòng)化

自動(dòng)化

+關(guān)注

關(guān)注
31

文章
5933

瀏覽量
90265
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
571

瀏覽量
11318

原文標(biāo)題：ICLR2022 | 基于對抗自注意力機(jī)制的預(yù)訓(xùn)練語言模型

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

評論

深度學(xué)習(xí)自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁

Hot 一個(gè)給NLP領(lǐng)域帶來革新的預(yù)訓(xùn)練語言大模型Bert
Hot 推薦一些翻譯英文文獻(xiàn)比較準(zhǔn)確的軟件

New 高效大模型的推理綜述
New 什么是RAG，RAG學(xué)習(xí)和實(shí)踐經(jīng)驗(yàn)

精選推薦
更多

文章

資料

帖子

技術(shù)資訊 I 剛?cè)峤Y(jié)合印刷電路板設(shè)計(jì)

深圳(耀創(chuàng))電子科技有限公司
1天前

1600 閱讀

閃迪開源SPRandom：160小時(shí)變6.2小時(shí)，企業(yè)SSD測試迎革命性提速

章鷹觀察
1天前

3034 閱讀

開關(guān)電源限流保護(hù)電路的原理分析

電源聯(lián)盟
1天前

1218 閱讀

炮火，AI，全球飄零：逆潮中的伊朗開發(fā)者

腦極體
1天前

3091 閱讀

高壓放大器ATA-7025在量子點(diǎn)薄膜的非接觸無損原位檢測中的應(yīng)用

Aigtek安泰電子
2天前

1814 閱讀

品質(zhì)管理原則要綱

建立建利12
338

5積分

37下載

OpenShift紅帽PaaS平臺

丁冬芹
44.25 MB

免費(fèi)

0下載

fix_docker_ip固定docker容器的IP

五斤麻辣油
6.62 MB

免費(fèi)

0下載

Mado跨平臺Markdown編輯器

摩托羅拉
0.51 MB

免費(fèi)

0下載

Poxi瀏覽器平面像素圖形編輯器

回頭太晚
0.05 MB

2積分

1下載

【飛凌嵌入式RV1126B開發(fā)板】+基本功能測試篇（1）

jennyzhaojie
2天前

837 閱讀

【飛凌嵌入式RV1126B開發(fā)板】+初識篇

jennyzhaojie
3天前

875 閱讀

樹莓派5還是香橙派5 Pro？兩款熱門開發(fā)板的詳細(xì)對比

行走的小派
3天前

1236 閱讀

OrangePi RV2 深度技術(shù)評測：RISC-V AI融合架構(gòu)的先行者

行走的小派
4天前

1549 閱讀

lab view NI6003搭建電路

jf_73763743
4天前

1529 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

電子發(fā)燒友

My ElecFans

APP
網(wǎng)站地圖

設(shè)計(jì)技術(shù)

可編程邏輯

電源/新能源

MEMS/傳感技術(shù)

測量儀表

嵌入式技術(shù)

制造/封裝

模擬技術(shù)

RF/無線

接口/總線/驅(qū)動(dòng)

處理器/DSP

EDA/IC設(shè)計(jì)

存儲(chǔ)技術(shù)

光電顯示

EMC/EMI設(shè)計(jì)

連接器

行業(yè)應(yīng)用

LEDs

汽車電子

音視頻及家電

通信網(wǎng)絡(luò)

醫(yī)療電子

人工智能

虛擬現(xiàn)實(shí)

可穿戴設(shè)備

機(jī)器人

安全設(shè)備/系統(tǒng)

軍用/航空電子

移動(dòng)通信

工業(yè)控制

便攜設(shè)備

觸控感測

物聯(lián)網(wǎng)

智能電網(wǎng)

區(qū)塊鏈

新科技

特色內(nèi)容

專欄推薦

學(xué)院

設(shè)計(jì)資源

設(shè)計(jì)技術(shù)

電子百科

電子視頻

元器件知識

工具箱

VIP會(huì)員

最新技術(shù)文章

產(chǎn)品地圖

品牌地圖

社區(qū)

小組

論壇

問答

評測試用

企業(yè)服務(wù)

產(chǎn)品

資料

文章

方案

企業(yè)

供應(yīng)鏈服務(wù)

硬件開發(fā)

媒體服務(wù)

網(wǎng)站廣告

在線研討會(huì)

活動(dòng)策劃

新聞發(fā)布

新品發(fā)布

小測驗(yàn)

設(shè)計(jì)大賽

電子發(fā)燒友

關(guān)于我們

聯(lián)系我們

舉報(bào)投訴

社交網(wǎng)絡(luò)

微博

移動(dòng)端

發(fā)燒友APP

WAP

聯(lián)系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內(nèi)容合作

張迎輝：mikezhang@elecfans.com

關(guān)注我們的微信

下載發(fā)燒友APP

電子發(fā)燒友觀察

版權(quán)所有 ? 長沙勒克斯教育咨詢有限公司

湖南省長沙市開福區(qū)月湖街道匍園路20號聚恒科技園1棟2301-1房
電子發(fā)燒友 （電路圖） 湘公網(wǎng)安備43011202000918 工商網(wǎng)監(jiān) 湘ICP備2023036445號-105-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级