91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種緩解負(fù)采樣偏差的對(duì)比學(xué)習(xí)句表示框架DCLR

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:張北辰 ? 2022-06-07 09:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文針對(duì)句表示對(duì)比學(xué)習(xí)中的負(fù)采樣偏差進(jìn)行研究,提出了一種針對(duì)錯(cuò)負(fù)例和各向異性問(wèn)題的去偏句表示對(duì)比學(xué)習(xí)框架。該框架包括一種懲罰假負(fù)例的實(shí)例加權(quán)方法以及一種基于噪聲的負(fù)例生成方法,有效緩解了句表示任務(wù)中的負(fù)采樣偏差問(wèn)題,提升了表示空間的均勻性。

論文題目:Debiased Contrastive Learning of Unsupervised Sentence Representations

論文下載地址:https://arxiv.org/abs/2205.00656

論文開(kāi)源代碼:https://github.com/rucaibox/dclr

引言

作為自然語(yǔ)言處理(NLP)領(lǐng)域的一項(xiàng)基本任務(wù),無(wú)監(jiān)督句表示學(xué)習(xí)(unsupervised sentence representation learning)旨在得到高質(zhì)量的句表示,以用于各種下游任務(wù),特別是低資源領(lǐng)域或計(jì)算成本較高的任務(wù),如 zero-shot 文本語(yǔ)義匹配、大規(guī)模語(yǔ)義相似性計(jì)算等等。

考慮到預(yù)訓(xùn)練語(yǔ)言模型原始句表示的各向異性問(wèn)題,對(duì)比學(xué)習(xí)被引入到句表示任務(wù)中。然而,以往工作的大多采用批次內(nèi)負(fù)采樣或訓(xùn)練數(shù)據(jù)隨機(jī)負(fù)采樣,這可能會(huì)造成采樣偏差(sampling bias),導(dǎo)致不恰當(dāng)?shù)呢?fù)例(假負(fù)例或各向異性的負(fù)例)被用來(lái)進(jìn)行對(duì)比學(xué)習(xí),最終損害表示空間的對(duì)齊度(alignment)和均勻性(uniformity)。

為了解決以上問(wèn)題,我們提出了一種新的句表示學(xué)習(xí)框架 DCLR(Debiased Contrastive Learning of Unsupervised Sentence Representations)。在 DCLR 中,我們?cè)O(shè)計(jì)了一種懲罰假負(fù)例的實(shí)例加權(quán)方法以及一種基于噪聲的負(fù)例生成方法,有效緩解了句表示任務(wù)中的負(fù)采樣偏差問(wèn)題,提升了表示空間的對(duì)齊度和均勻性。

背景與動(dòng)機(jī)

近年來(lái),預(yù)訓(xùn)練語(yǔ)言模型在各種 NLP 任務(wù)上取得了令人矚目的表現(xiàn)。然而,一些研究發(fā)現(xiàn),由預(yù)訓(xùn)練模型得出的原始句表示相似度都很高,在向量空間中并不是均勻分布的,而是構(gòu)成了一個(gè)狹窄的錐體,這在很大程度上限制了句表示的表達(dá)能力。

為了得到分布均勻的句表示,對(duì)比學(xué)習(xí)被應(yīng)用于句表示學(xué)習(xí)中。對(duì)比學(xué)習(xí)的目標(biāo)是從數(shù)據(jù)中學(xué)習(xí)到一個(gè)優(yōu)質(zhì)的語(yǔ)義表示空間。優(yōu)質(zhì)的語(yǔ)義表示空間需要正例表示分布足夠接近,同時(shí)語(yǔ)義表示盡量均勻地分布在超球面上,具體可以用以下兩種指標(biāo)來(lái)衡量:

1、對(duì)齊度(alignment)計(jì)算原始表示與正例表示的平均距離。

2、均勻性(uniformity)計(jì)算表示整體在超球面上分布的均勻程度。

因此,對(duì)比學(xué)習(xí)的思想為拉近語(yǔ)義相似的正例表示以提高對(duì)齊度,同時(shí)推開(kāi)不相關(guān)的負(fù)例以提高整個(gè)表示空間的均勻性。

623771d8-e589-11ec-ba43-dac502259ad0.png

以往的基于對(duì)比學(xué)習(xí)的句表示學(xué)習(xí)工作大多使用 batch 內(nèi)數(shù)據(jù)作為負(fù)例或從訓(xùn)練數(shù)據(jù)中隨機(jī)采樣負(fù)例。然而,這類(lèi)方式可能會(huì)造成抽樣偏差(sampling bias),導(dǎo)致不恰當(dāng)?shù)呢?fù)例(例如假負(fù)例或各向異性的負(fù)例)被用來(lái)學(xué)習(xí)句表示,這將損害表征空間的對(duì)齊性和統(tǒng)一性。上圖是 SimCSE 編碼的輸入句表示與批次內(nèi)其它樣本表示的余弦相似度分布??梢钥吹剑薪咏话氲南嗨贫雀哂?0.7,直接在向量空間中推遠(yuǎn)這些負(fù)例很有可能損害模型的語(yǔ)義表示能力。

因此,本文聚焦于如何降低負(fù)采樣偏差,從而使得對(duì)比學(xué)習(xí)得到向量分布對(duì)齊、均勻的句表示。

方法簡(jiǎn)介

DCLR 聚焦于減少句表示對(duì)比學(xué)習(xí)中負(fù)采樣偏差的影響。在這個(gè)框架中,我們?cè)O(shè)計(jì)了一種基于噪聲的負(fù)例生成策略和一種懲罰假負(fù)例的實(shí)例加權(quán)方法。

626bbf9c-e589-11ec-ba43-dac502259ad0.png

基于噪聲的負(fù)例生成

對(duì)于每個(gè)輸入句 ,我們首先基于高斯分布初始化個(gè)噪聲向量作為負(fù)例表示:

其中為標(biāo)準(zhǔn)差。因?yàn)檫@些噪聲向量是從上述高斯分布中隨機(jī)初始化的,所以它們均勻地分布在語(yǔ)義空間中。因此,模型可以通過(guò)學(xué)習(xí)這些負(fù)例來(lái)提高語(yǔ)義空間的均勻性。

為了提高生成負(fù)例的質(zhì)量,我們考慮迭代更新負(fù)例,以捕捉語(yǔ)義空間中的非均勻性點(diǎn)。受虛擬對(duì)抗訓(xùn)練(virtual adversarial training, VAT)的啟發(fā),我們?cè)O(shè)計(jì)了一個(gè)非均勻性(non-uniformity)損失最大化的目標(biāo)函數(shù)以產(chǎn)生梯度來(lái)改善這些負(fù)例。具體來(lái)說(shuō),目標(biāo)函數(shù)表示為基于噪聲的負(fù)例與正例表示的對(duì)比學(xué)習(xí)損失:

其中是溫度超參數(shù),是余弦相似度。對(duì)于每個(gè)負(fù)例 ,我們通過(guò) t 步梯度上升法對(duì)其進(jìn)行優(yōu)化:

其中為學(xué)習(xí)率,是 L2 范數(shù)。表示通過(guò)最大化非均勻性目標(biāo)函數(shù)產(chǎn)生的的梯度。這樣一來(lái),基于噪音的負(fù)例將朝著句表示空間的非均勻點(diǎn)優(yōu)化。學(xué)習(xí)與這些負(fù)例的對(duì)比可以進(jìn)一步提高表示空間的均勻性。

帶有實(shí)例加權(quán)的對(duì)比學(xué)習(xí)

除了上述基于噪音的負(fù)例,我們也遵循現(xiàn)有工作,使用其它批次內(nèi)樣本表示作為負(fù)例。然而,如前文所述,批次內(nèi)負(fù)例可能包含與正例有類(lèi)似語(yǔ)義的例子,即假負(fù)例。為了緩解這個(gè)問(wèn)題,我們提出了一種實(shí)例加權(quán)的方法來(lái)懲罰假負(fù)例。由于我們無(wú)法獲得真實(shí)的負(fù)例標(biāo)簽,我們利用補(bǔ)充模型 SimCSE 來(lái)計(jì)算每個(gè)負(fù)例的權(quán)重。給定 或 {hat{h}}中的一個(gè)負(fù)例表示 和原始句表示 ,我們使用補(bǔ)全模型來(lái)計(jì)算權(quán)重:

其中 是實(shí)例加權(quán)閾值,是余弦相似度函數(shù)。通過(guò)上式,與原句表示有較高語(yǔ)義相似性的負(fù)例將被視為假負(fù)例,并將被賦予 0 權(quán)重作為懲罰?;谝陨蠙?quán)重,我們用去偏的交叉熵對(duì)比學(xué)習(xí)損失函數(shù)來(lái)優(yōu)化句表示:

我們的方法使用了 SimCSE 的 dropout 正例增廣策略,但也適用于其它多種正例增廣策略。

實(shí)驗(yàn)

數(shù)據(jù)集

遵循以往的工作,我們?cè)?7 個(gè)標(biāo)準(zhǔn)語(yǔ)義文本相似度任務(wù)上進(jìn)行實(shí)驗(yàn)。這些數(shù)據(jù)集由成對(duì)句子樣本構(gòu)成,其相似性分?jǐn)?shù)被標(biāo)記為 0 到 5。標(biāo)簽分?jǐn)?shù)和句表示預(yù)測(cè)分?jǐn)?shù)之間的相關(guān)性由 Spearman 相關(guān)度來(lái)衡量。

主實(shí)驗(yàn)

我們?cè)?7 個(gè)數(shù)據(jù)集上進(jìn)行了語(yǔ)義相似度測(cè)試,并與現(xiàn)有 baseline 進(jìn)行比較??梢钥吹剑珼CLR 的性能在絕大部分實(shí)驗(yàn)中優(yōu)于基線模型。

62aa3614-e589-11ec-ba43-dac502259ad0.png

分析與擴(kuò)展

6302ef02-e589-11ec-ba43-dac502259ad0.png

DCLR 框架包含兩個(gè)去偏負(fù)采樣策略,為了驗(yàn)證其有效性,我們對(duì)兩部分分別進(jìn)行了消融實(shí)驗(yàn)。除此之外,我們還考慮其它三種策略:

1、Random Noise 直接從高斯分布中生成負(fù)例,不進(jìn)行梯度優(yōu)化。

2、Knowledge Distillation 使用 SimCSE 作為教師模型在訓(xùn)練過(guò)程中向?qū)W生模型蒸餾知識(shí)。

3、Self Instance Weighting 將模型自己作為補(bǔ)全模型為實(shí)例計(jì)算權(quán)重。

結(jié)果顯示 DCLR 的性能優(yōu)于各類(lèi)變種,表明所提策略的合理性。

6385619e-e589-11ec-ba43-dac502259ad0.png

均勻性是句表示的一個(gè)理想特征。我們比較了 DCLR 和 SimCSE 基于 BERT-base 在訓(xùn)練期間的均勻性損失曲線。遵循 SimCSE,均勻性損失函數(shù)為:

其中 是所有句表示的分布。如圖所示,隨著訓(xùn)練進(jìn)行,DCLR 的均勻性損失下降,而 SimCSE 沒(méi)有明顯的下降趨勢(shì)。這可能表明 DCLR 中基于噪聲的負(fù)例采樣方法能夠有效改善語(yǔ)義空間的均勻性。

63c1cd00-e589-11ec-ba43-dac502259ad0.png

為了驗(yàn)證 DCLR 在少樣本場(chǎng)景下的健壯性,我們?cè)?0.3% 到 100% 的數(shù)據(jù)量設(shè)定下訓(xùn)練模型。結(jié)果表明,即使在相對(duì)極端的數(shù)據(jù)設(shè)定(0.3%)下,我們的模型性能也僅僅在兩個(gè)任務(wù)中分別下降了了 9% 和 4%,這顯示了模型在少樣本場(chǎng)景中的有效性。

六. 總結(jié)

本文提出了一種緩解負(fù)采樣偏差的對(duì)比學(xué)習(xí)句表示框架 DCLR。DCLR 采用一種可梯度更新的噪聲負(fù)例生成方法來(lái)提高語(yǔ)義空間的均勻性,同時(shí)使用實(shí)例加權(quán)的方法緩解假負(fù)例問(wèn)題,提升語(yǔ)義空間對(duì)齊度。實(shí)驗(yàn)表明,該方法在大部分任務(wù)設(shè)定下優(yōu)于其它基線模型。

在未來(lái),我們將探索其他減少句表示任務(wù)中對(duì)比學(xué)習(xí)偏差的方法(例如去偏預(yù)訓(xùn)練)。此外,我們還將考慮將我們的方法應(yīng)用于多語(yǔ)言或多模態(tài)的表示學(xué)習(xí)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    404

    瀏覽量

    18457
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    572

    瀏覽量

    11324
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23297

原文標(biāo)題:ACL2022 | 無(wú)監(jiān)督句表示的去偏對(duì)比學(xué)習(xí)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    一種無(wú)OS的MCU實(shí)用軟件框架

    介紹一種無(wú)OS的MCU實(shí)用軟件框架,包括任務(wù)輪詢(xún)管理,命令管理器、低功耗管理、環(huán)形緩沖區(qū)等實(shí)用模塊。系統(tǒng)中廣泛利用自定義段技術(shù)減少各個(gè)模塊間的耦合關(guān)系,大大提供程序的可維護(hù)性。 主要功能 支持模塊
    發(fā)表于 01-08 06:58

    VCC、VDD、VEE、VSS對(duì)比分析

    一種解釋?zhuān)?   DCpower般是指帶實(shí)際電壓的源,其他的都是標(biāo)號(hào)。在有些仿真軟件中,默認(rèn)把標(biāo)號(hào)和源相連。   VCC:C=circuit,表示電路的意思,即接入電路的電壓。   VDD:D
    發(fā)表于 12-04 06:28

    普源示波器MSO8000與DSO8000采樣對(duì)比

    在電子測(cè)量領(lǐng)域,示波器的采樣率直接影響信號(hào)采集的精度與細(xì)節(jié)還原能力。普源精電的MSO8000與DSO8000系列作為中高端數(shù)字示波器,雖命名相似但技術(shù)特性各有側(cè)重。本文聚焦兩者采樣對(duì)比,結(jié)合應(yīng)用場(chǎng)景解析其技術(shù)差異。
    的頭像 發(fā)表于 10-18 10:10 ?1606次閱讀
    普源示波器MSO8000與DSO8000<b class='flag-5'>采樣</b>率<b class='flag-5'>對(duì)比</b>

    電能質(zhì)量在線監(jiān)測(cè)裝置能測(cè)頻率偏差嗎?

    )的波動(dòng),輸出頻率偏差值、頻率波動(dòng)率等關(guān)鍵數(shù)據(jù),為電網(wǎng)調(diào)度、穩(wěn)定控制提供依據(jù)。 、為什么能測(cè)?核心測(cè)量原理 電能質(zhì)量在線監(jiān)測(cè)裝置通過(guò) “ 高精度采樣 + 基波頻率提取算法 ” 實(shí)現(xiàn)頻率偏差
    的頭像 發(fā)表于 10-13 17:48 ?1063次閱讀

    泰克示波器MDO3000與MDO4000C采樣對(duì)比分析

    、引言 1.1 研究背景與意義 在電子測(cè)量領(lǐng)域,示波器采樣率至關(guān)重要,直接影響波形準(zhǔn)確性與完整性。對(duì)比分析泰克MDO3000與MDO4000C的采樣率,能為用戶(hù)選擇提供關(guān)鍵參考。 1
    的頭像 發(fā)表于 08-27 17:39 ?907次閱讀
    泰克示波器MDO3000與MDO4000C<b class='flag-5'>采樣</b>率<b class='flag-5'>對(duì)比</b>分析

    一種適用于動(dòng)態(tài)環(huán)境的自適應(yīng)先驗(yàn)場(chǎng)景-對(duì)象SLAM框架

    由于傳統(tǒng)視覺(jué)SLAM在動(dòng)態(tài)場(chǎng)景中容易會(huì)出現(xiàn)嚴(yán)重的定位漂移,本文提出了一種新穎的基于場(chǎng)景-對(duì)象的可靠性評(píng)估框架,該框架通過(guò)當(dāng)前幀質(zhì)量指標(biāo)以及相對(duì)于可靠參考幀的場(chǎng)景變化,全面評(píng)估SLAM的穩(wěn)定性。
    的頭像 發(fā)表于 08-19 14:17 ?893次閱讀
    <b class='flag-5'>一種</b>適用于動(dòng)態(tài)環(huán)境的自適應(yīng)先驗(yàn)場(chǎng)景-對(duì)象SLAM<b class='flag-5'>框架</b>

    一種基于三極管開(kāi)關(guān)特性的負(fù)壓空控制電路的應(yīng)用資料

    在三極管開(kāi)關(guān)原理的基礎(chǔ)上依據(jù)三極管獨(dú)特開(kāi)關(guān)特性以一種新的思路設(shè)計(jì)出了負(fù)壓控制電路。通過(guò)對(duì)偏置電路的設(shè)計(jì)以及對(duì)三極管的開(kāi)關(guān)特性的應(yīng)用實(shí)現(xiàn)了在TTL電壓的控制下將-5V穩(wěn)壓電源轉(zhuǎn)換成-0.5V與-3V的脈沖電壓輸出。并且可以根據(jù)
    發(fā)表于 08-18 15:38 ?1次下載

    功能三合,單機(jī)完成正壓強(qiáng)度測(cè)試、負(fù)壓密封性驗(yàn)證、容積偏差分析!

    在實(shí)際產(chǎn)線應(yīng)用中,LS4000展現(xiàn)出驚人的適應(yīng)性。上周剛為客戶(hù)完成產(chǎn)線改造,原本需要三臺(tái)設(shè)備串聯(lián)的檢測(cè)工序,現(xiàn)在只需單臺(tái)設(shè)備就能完成正壓強(qiáng)度測(cè)試、負(fù)壓密封性驗(yàn)證、容積偏差分析三道關(guān)卡。
    的頭像 發(fā)表于 08-11 19:54 ?579次閱讀
    功能三合<b class='flag-5'>一</b>,單機(jī)完成正壓強(qiáng)度測(cè)試、<b class='flag-5'>負(fù)</b>壓密封性驗(yàn)證、容積<b class='flag-5'>偏差</b>分析!

    一句話了解21計(jì)算模式

    、智能化趨勢(shì)、安全與可持續(xù)四個(gè)維度,梳理了21計(jì)算模式,并盡量用通俗易懂的一句話向您介紹每種模式的定義。架構(gòu)與資源維度并行計(jì)算:把大任務(wù)拆成多個(gè)小任務(wù),讓多顆處理器
    的頭像 發(fā)表于 08-06 14:31 ?772次閱讀
    <b class='flag-5'>一句</b>話了解21<b class='flag-5'>種</b>計(jì)算模式

    一種永磁同步電機(jī)轉(zhuǎn)子位置傳感器零位偏差高精度測(cè)量方法

    電勢(shì)模型的基礎(chǔ)上,結(jié)合旋轉(zhuǎn)變壓器解碼數(shù)據(jù),提出了一種通過(guò)拖動(dòng)電機(jī)被動(dòng)轉(zhuǎn)動(dòng),測(cè)量電機(jī)繞組反電勢(shì)及旋變解碼數(shù)據(jù)高位信號(hào)的零位偏差直接測(cè)量方法。實(shí)驗(yàn)表明該方法具有測(cè)試方法簡(jiǎn)單、測(cè)量精度高等特點(diǎn)。 純
    發(fā)表于 08-04 15:01

    技術(shù)資訊 I 文了解負(fù)阻抗轉(zhuǎn)換器

    核心要點(diǎn)負(fù)阻抗變換器(NIC)是一種能在輸入端模擬負(fù)阻抗的電路。負(fù)阻抗變換器應(yīng)用廣泛,涵蓋模擬信號(hào)處理和控制系統(tǒng)等領(lǐng)域,可用于穩(wěn)定或調(diào)整電路的輸入阻抗。在將
    的頭像 發(fā)表于 07-18 18:20 ?1306次閱讀
    技術(shù)資訊 I <b class='flag-5'>一</b>文了解<b class='flag-5'>負(fù)</b>阻抗轉(zhuǎn)換器

    一種基于擴(kuò)散模型的視頻生成框架RoboTransfer

    在機(jī)器人操作領(lǐng)域,模仿學(xué)習(xí)是推動(dòng)具身智能發(fā)展的關(guān)鍵路徑,但高度依賴(lài)大規(guī)模、高質(zhì)量的真實(shí)演示數(shù)據(jù),面臨高昂采集成本與效率瓶頸。仿真器雖提供了低成本數(shù)據(jù)生成方案,但顯著的“模擬到現(xiàn)實(shí)”(Sim2Real)鴻溝,制約了仿真數(shù)據(jù)訓(xùn)練策略的泛化能力與落地應(yīng)用。
    的頭像 發(fā)表于 07-09 14:02 ?851次閱讀
    <b class='flag-5'>一種</b>基于擴(kuò)散模型的視頻生成<b class='flag-5'>框架</b>RoboTransfer

    CAN總線采樣點(diǎn)不致的危害

    ) :用于補(bǔ)償負(fù)相位誤差(位轉(zhuǎn)換早于Sync_Seg),可在重新同步時(shí)縮短。 采樣點(diǎn)位于Phase_Seg1和Phase_Seg2之間,其位置通常以位時(shí)間的百分比表示。例如,采樣點(diǎn)為8
    發(fā)表于 06-07 08:55

    一種實(shí)時(shí)多線程VSLAM框架vS-Graphs介紹

    針對(duì)現(xiàn)有VSLAM系統(tǒng)語(yǔ)義表達(dá)不足、地圖可解釋性差的問(wèn)題,本文提出vS-Graphs,一種實(shí)時(shí)多線程VSLAM框架。該方案顯著提升了重建地圖的語(yǔ)義豐富度、可解釋性及定位精度。實(shí)驗(yàn)表明
    的頭像 發(fā)表于 04-19 14:07 ?1042次閱讀
    <b class='flag-5'>一種</b>實(shí)時(shí)多線程VSLAM<b class='flag-5'>框架</b>vS-Graphs介紹

    STM32如何移植Audio框架?

    最近在學(xué)習(xí)音頻解碼,想用下Audio框架。 1、這個(gè)該如何移植到自己創(chuàng)建的BSP并對(duì)接到device框架中?看了官方移植文檔沒(méi)有對(duì)沒(méi)有對(duì)該部分的描述。 2、我只想實(shí)現(xiàn)
    發(fā)表于 04-01 08:08