91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用于NAT的選擇性知識蒸餾框架

深度學習自然語言處理 ? 來源:南大NLP ? 作者:南大NLP ? 2022-12-06 14:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

01

研究動機

在本文中,我們研究了一種能夠高效推理的機器翻譯模型NAT (Non-Autoregressive Transformer)[1]。相較于傳統的Transformer,NAT能夠在解碼階段并行預測,從而大幅提升模型的推理速度。此外,NAT可以使得模型在訓練和測試階段從相同的分布進行預測,從而有效避免了順序解碼模型中經常出現的exposure bias問題。在WMT21 news translation shared task for German→English translation中,已經有NAT模型在翻譯質量上超過了許多順序解碼的模型。

盡管NAT在擁有許多潛在的優(yōu)勢,目前的工作中這類模型仍然在很大程度上依賴于句子級別的知識蒸餾(sequence-level knowledge distillation, KD)[2]。由于需要并行預測所有token,NAT對單詞間依賴關系的建模能力較弱。這個特點使得在真實數據集上,NAT很容易受到multi-modality問題的影響:訓練數據中一個輸入可能對應多個不同的輸出。在這樣的背景下,Gu提出訓練一個AT (Autoregressive Transformer)[3]模型作為老師,將它的輸出作為NAT的學習對象。這種KD方式可以幫助NAT繞過multi-modality問題,從而大幅提升NAT的翻譯表現。

e0ba8f3e-751e-11ed-8abf-dac502259ad0.png

圖1:Selective KD的流程示意圖

KD在幫助NAT提升表現的同時,也會帶來一些負面影響,例如模型在低頻詞上的準確率較低[4]、AT teacher的錯誤會傳播到NAT上等。此外,如果NAT僅能在AT teacher的輸出上學習,這類模型的翻譯質量將很難有更進一步的突破。我們的研究希望能夠在避免multi-modality的情況下,讓NAT能夠從真實的數據分布中學到知識蒸餾的過程中缺失的信息,從而提升NAT的表現。

為達到這樣的目的,我們提出了selective KD:在KD數據上訓練一個NAT作為評估模型,并通過它來選擇需要蒸餾的句子。通過這種方式,我們可以讓模型接觸到翻譯質量更高的真實數據,同時避免了嚴重的multi-modality情況。受課程學習的影響,我們也在訓練過程中動態(tài)調整蒸餾數據的比例?!坝迷u估模型有選擇地蒸餾數據”和“動態(tài)調節(jié)蒸餾數據的比例”共同構成了我們的Selective KD訓練框架。

02

解決方案

2.1評估模型

我們首先將數據蒸餾產生的結果劃分為四種不同的情況:

較輕的modality change:某些單詞可能被替換為同義詞,句式和語義并沒有發(fā)生顯著的變化

較輕的錯誤:在保持原有句式和語義的情況下,發(fā)生了一些小錯誤,例如單詞重復

嚴重的modality change:語義不變的情況下,句子的表達方式發(fā)生了顯著的變化

嚴重的錯誤:翻譯的質量很糟糕

對于情況1,我們可以容忍較輕的modality change,這種情況下真實數據和蒸餾數據都可以被視作正確的學習目標,同時引入真實數據不會大幅增加數據集的復雜程度。情況2中,用真實數據替換蒸餾數據可以得到更高的翻譯質量,找出屬于這種情況的樣本是我們方法的主要目標。情況3中,由于引入真實數據會惡化multi-modality問題,我們希望蒸餾這部分數據。情況4很少發(fā)生,我們認為這種情況下該訓練樣本對NAT可能太過困難,引入真實數據帶來的提升很有限??偟膩碚f,我們希望能找到情況1、2對應的訓練樣本,在訓練過程中將它們的原始數據作為學習對象。

e0e43014-751e-11ed-8abf-dac502259ad0.png



圖2:4種不同的情況對應的案例

為了篩選情況1、2中的數據,我們在蒸餾數據上訓練一個NAT作為評估模型,通過比較評估模型的輸出和真實數據計算一個score,判斷一個真實翻譯是否適合被直接用于訓練。若對于某個樣本評估模型的輸出和真實數據較為接近,則score較高,我們可以認為蒸餾數據僅有微小的錯誤或modality change,從而認為它屬于情況1、2,無需蒸餾。反之,可以認為蒸餾數據發(fā)生了較大的變化,因此屬于情況3、4,或是這個樣本在蒸餾后不發(fā)生太大變化的情況下對NAT而言仍過于困難。經過篩選,我們僅蒸餾那些不適合用于訓練的真實數據。

2.2動態(tài)調整蒸餾比例:由困難到容易

我們在訓練過程中會調整蒸餾數據的比例。一般來說,剛開始訓練時絕大多數訓練樣本為真實數據,訓練的尾聲則會蒸餾整個訓練集。具體實現中,我們通過動態(tài)調節(jié)score的閾值來調整蒸餾的比例。

e11339ae-751e-11ed-8abf-dac502259ad0.png

圖3:selective KD在第k次update的算法示意

03

實驗

我們在WMT14 EN-DE和WMT16 EN-RO上開展了實驗,包括了兩種代表性的NAT架構:CMLM [5]和GLAT+CTC [6],以及一種inference-efficient的AT架構:DeepShallow [7](6層編碼器,1層解碼器)。

3.1翻譯質量與推理速度

我們通過BLEU score [8]和一種learned metric COMET [9]來衡量模型的翻譯質量,并通過和標準Transformer比較來衡量推理速度??梢园l(fā)現,相比于常規(guī)的知識蒸餾,Selective KD可以在不同數據集、不同架構以及不同metric上穩(wěn)定取得翻譯質量的提升,同時保持模型自身在推理速度上的優(yōu)勢。我們方法在inference-efficient AT上也有明顯的效果,這進一步說明了selective KD具有廣泛的價值。

e128553c-751e-11ed-8abf-dac502259ad0.png



圖4:翻譯質量與推理速度。翻譯質量括號外為BLEU,括號內為COMET

3.2調節(jié)quality和complexity

真實數據的翻譯質量往往是優(yōu)于蒸餾數據的,通過調節(jié)蒸餾數據的比例,Selective KD可以調節(jié)訓練集的quality。與此同時,我們希望知道這個方法是否可以靈活調節(jié)訓練集的complexity。為了更好地觀察這一點,文章中用了兩個metric來衡量數據的復雜程度:Translatioin Uncertainty [10]和Alignment Shift。Translation Uncertainty反映了源句單詞對應翻譯結果的多樣性,Alignment Shift反映了句式的變化程度。

e1596ce4-751e-11ed-8abf-dac502259ad0.png

e168ab32-751e-11ed-8abf-dac502259ad0.png

圖5:Translation Uncertainty(左)和Alignment Shift(右)的計算方式

如圖6所示,我們的方法可以有效控制數據的complexity。我們保留的真實數據(綠色折線)在兩個指標上都遠遠低于被蒸餾的真實數據(紅色折線)。在增加真實數據的比例同時,整個數據集complexity的提升是緩慢而平滑的。

e17f4176-751e-11ed-8abf-dac502259ad0.png



圖6:數據的Translation Uncertainty(左)和Alignment Shift(右)

3.3蒸餾數據占比的影響

如圖7所示,我們在不同蒸餾比例的數據上進行了實驗??梢园l(fā)現,通過selective KD僅蒸餾5%的數據就可以提升2.4 BLEU。在蒸餾數據比例為80%時,模型的表現甚至超過了完全蒸餾的數據,根據[10],一種可能的解釋是這種比例下數據的complexity更適合我們實驗中采用的GLAT+CTC架構。另外,動態(tài)調節(jié)真實數據的比例(藍色虛線)可以進一步提升模型的表現。

e1a73dac-751e-11ed-8abf-dac502259ad0.png

圖7:在不同蒸餾比例下模型的表現

04

總結

在這篇文章中,我們提出了選擇性知識蒸餾,從而使得NAT模型可以從真實的數據分布中學到知識蒸餾過程中缺失的部分信息。具體來說,我們采用一個NAT作為評估模型來判斷哪些句子需要蒸餾,并動態(tài)提高蒸餾數據的比例。我們用實驗結果證明了該方法可以有效提升NAT在機器翻譯任務上的表現。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • NAT
    NAT
    +關注

    關注

    0

    文章

    168

    瀏覽量

    17171
  • 機器翻譯
    +關注

    關注

    0

    文章

    141

    瀏覽量

    15526
  • 數據集
    +關注

    關注

    4

    文章

    1236

    瀏覽量

    26190

原文標題:AAAI'23 | 用于NAT的選擇性知識蒸餾框架

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Linux驅動開發(fā)的必備知識

    、內核模塊編程: 掌握內核模塊的編寫、編譯、加載和卸載方法。 了解內核模塊的初始化和清理函數的編寫。 5、設備驅動框架: 熟悉字符設備、塊設備、網絡設備等驅動框架。 能夠根據不同的設備類型選擇合適
    發(fā)表于 12-04 07:58

    選擇性波峰焊適用于什么場景?

    自動化焊錫機
    邁威機器人
    發(fā)布于 :2025年11月12日 11:48:43

    網段隔離器適用于哪些設備的NAT轉換

    網段隔離器(NAT轉換網關)在工業(yè)網絡場景中應用廣泛,適用于生產網絡對 PLC、HMI、CNC、DCS、MES等網絡通訊和數據采集,兼有跨網段隔離和IP轉換的功能。同時支持多臺設備(如PLC、CNC
    的頭像 發(fā)表于 10-24 10:52 ?474次閱讀
    網段隔離器適<b class='flag-5'>用于</b>哪些設備的<b class='flag-5'>NAT</b>轉換

    求助,關于lwip實現NAT轉發(fā)到本地端口遇到的問題求解

    兩個問題 (1)我下載了ipv4_nat.c,也按照說明在main.c中寫了幾個例子,但是一直沒有激活,不知道什么原因,我想把評論過來的端口返回到本地的監(jiān)聽端口,類似LINUX上的生成
    發(fā)表于 09-29 10:04

    如何使用ipv4_nat模塊實現SNAT轉發(fā)?

    用的是rt-thread的3.1.0版本,c-sky 803S平臺,有兩個網口,NAT前兩個網口的配置分別如下 char * argument_list0[] = {\"ifconfig
    發(fā)表于 09-29 06:08

    選擇性波峰焊焊接溫度全解析:工藝控制與優(yōu)化指南

    在電子制造行業(yè), 選擇性波峰焊(Selective Wave Soldering,簡稱 SWS) ?已經成為解決局部焊接需求的重要工藝。它能夠在同一塊 PCB 上,對不同區(qū)域實現差異化焊接,避免整板
    的頭像 發(fā)表于 09-17 15:10 ?1225次閱讀

    選擇性波峰焊技術簡介

    選擇性波峰焊以其精準焊接、高效生產和自動化優(yōu)勢,已成為SMT后段工藝中不可或缺的一環(huán)。AST埃斯特憑借領先的技術和優(yōu)質的產品,為電子制造企業(yè)提供了強有力的插件焊接設備解決方案。無論是消費電子還是
    的頭像 發(fā)表于 08-28 10:11 ?909次閱讀
    <b class='flag-5'>選擇性</b>波峰焊技術簡介

    AST SEL-31單頭選擇性波峰焊——智能焊接新選擇

    在電子制造智能化、精細化的趨勢下,選擇一款 高效、穩(wěn)定、可追溯 的焊接設備,是企業(yè)提升競爭力的關鍵。 AST SEL-31 單頭選擇性波峰焊,以 精度、效率與智能化 為核心,為客戶帶來穩(wěn)定可靠的生產力。無論是 汽車電子、通信設備、工業(yè)控制,還是消費電子,AST 都能
    的頭像 發(fā)表于 08-28 10:05 ?588次閱讀
    AST SEL-31單頭<b class='flag-5'>選擇性</b>波峰焊——智能焊接新<b class='flag-5'>選擇</b>

    AST埃斯特SEL-32D在線選擇性焊接機:高效精密PCB焊接解決方案效精密PCB焊接

    在追求高效率和高質量的電子制造領域,選擇性焊接工藝對確保最終產品可靠性至關重要。AST埃斯特推出的SEL-32D選擇性焊接機,憑借其創(chuàng)新的在線式設計、精密的分段焊接控制以及穩(wěn)定的性能參數,已成為滿足現代SMT后段焊接需求的理想工業(yè)設備。
    的頭像 發(fā)表于 08-20 16:52 ?828次閱讀

    NAT網關與網段隔離器有什么區(qū)別

    NAT網關與網段隔離器在網絡通信中扮演不同角色, NAT網關的核心功能是地址轉換與端口復用,側重解決IP資源短缺和跨網段通信問題;網段隔離器則通過物理/邏輯隔離實現網絡安全防護,重點在于阻斷直接攻擊
    的頭像 發(fā)表于 07-16 15:19 ?789次閱讀

    小批量多品種生產困局破冰:選擇性波峰焊如何重塑柔性電子制造競爭力

    聯網終端需應對碎片化訂單,傳統大批量流水線遭遇致命挑戰(zhàn):換線成本高、治具開發(fā)周期長、小批量生產虧損。當“柔性響應能力”成為制造企業(yè)生死線,選擇性波峰焊正成為破局關鍵。 傳統焊接:柔性生產鏈條上
    發(fā)表于 06-30 14:54

    Keithley 6517B靜電計在離子選擇性電極和pH測量中的優(yōu)勢

    在現代科學研究和工業(yè)應用中,離子選擇性電極和pH測量扮演著至關重要的角色。這些技術廣泛應用于環(huán)境監(jiān)測、食品工業(yè)、醫(yī)藥研究以及化學分析等領域。Keithley 6517B靜電計作為一種高精度、高靈敏度
    的頭像 發(fā)表于 06-18 10:52 ?535次閱讀
    Keithley 6517B靜電計在離子<b class='flag-5'>選擇性</b>電極和pH測量中的優(yōu)勢

    PCBA 加工必備知識選擇性波峰焊和傳統波峰焊區(qū)別大揭秘

    DIP焊接時,選擇性波峰焊與傳統波峰焊是兩種常見的焊接工藝。兩者各有特點,適用于不同的應用場景。 傳統波峰焊的特點 1. 工藝概述 傳統波峰焊是一種成熟的批量焊接技術,通過將插件組件插入PCB板后,將整板通過焊錫波峰來實現批量焊接。該工藝適合焊
    的頭像 發(fā)表于 05-08 09:21 ?1631次閱讀

    半導體選擇性外延生長技術的發(fā)展歷史

    選擇性外延生長(SEG)是當今關鍵的前端工藝(FEOL)技術之一,已在CMOS器件制造中使用了20年。英特爾在2003年的90納米節(jié)點平面CMOS中首次引入了SEG技術,用于pMOS源/漏(S/D
    的頭像 發(fā)表于 05-03 12:51 ?4029次閱讀
    半導體<b class='flag-5'>選擇性</b>外延生長技術的發(fā)展歷史

    什么是高選擇性蝕刻

    華林科納半導體高選擇性蝕刻是指在半導體制造等精密加工中,通過化學或物理手段實現目標材料與非目標材料刻蝕速率的顯著差異,從而精準去除指定材料并保護其他結構的工藝技術?。其核心在于通過工藝優(yōu)化控制
    的頭像 發(fā)表于 03-12 17:02 ?1003次閱讀