国产亚洲日本精品,日韩无码免费黄视频,亚洲成人系列国内操逼三级片

本文針對(duì)句表示對(duì)比學(xué)習(xí)中的負(fù)采樣偏差進(jìn)行研究，提出了一種針對(duì)錯(cuò)負(fù)例和各向異性問(wèn)題的去偏句表示對(duì)比學(xué)習(xí)框架。該框架包括一種懲罰假負(fù)例的實(shí)例加權(quán)方法以及一種基于噪聲的負(fù)例生成方法，有效緩解了句表示任務(wù)中的負(fù)采樣偏差問(wèn)題，提升了表示空間的均勻性。

論文題目：Debiased Contrastive Learning of Unsupervised Sentence Representations

論文下載地址：https://arxiv.org/abs/2205.00656

論文開(kāi)源代碼：https://github.com/rucaibox/dclr

引言

作為自然語(yǔ)言處理（NLP）領(lǐng)域的一項(xiàng)基本任務(wù)，無(wú)監(jiān)督句表示學(xué)習(xí)（unsupervised sentence representation learning）旨在得到高質(zhì)量的句表示，以用于各種下游任務(wù)，特別是低資源領(lǐng)域或計(jì)算成本較高的任務(wù)，如 zero-shot 文本語(yǔ)義匹配、大規(guī)模語(yǔ)義相似性計(jì)算等等。

考慮到預(yù)訓(xùn)練語(yǔ)言模型原始句表示的各向異性問(wèn)題，對(duì)比學(xué)習(xí)被引入到句表示任務(wù)中。然而，以往工作的大多采用批次內(nèi)負(fù)采樣或訓(xùn)練數(shù)據(jù)隨機(jī)負(fù)采樣，這可能會(huì)造成采樣偏差（sampling bias），導(dǎo)致不恰當(dāng)?shù)呢?fù)例（假負(fù)例或各向異性的負(fù)例）被用來(lái)進(jìn)行對(duì)比學(xué)習(xí)，最終損害表示空間的對(duì)齊度（alignment）和均勻性（uniformity）。

為了解決以上問(wèn)題，我們提出了一種新的句表示學(xué)習(xí)框架 DCLR（Debiased Contrastive Learning of Unsupervised Sentence Representations）。在 DCLR 中，我們?cè)O(shè)計(jì)了一種懲罰假負(fù)例的實(shí)例加權(quán)方法以及一種基于噪聲的負(fù)例生成方法，有效緩解了句表示任務(wù)中的負(fù)采樣偏差問(wèn)題，提升了表示空間的對(duì)齊度和均勻性。

背景與動(dòng)機(jī)

近年來(lái)，預(yù)訓(xùn)練語(yǔ)言模型在各種 NLP 任務(wù)上取得了令人矚目的表現(xiàn)。然而，一些研究發(fā)現(xiàn)，由預(yù)訓(xùn)練模型得出的原始句表示相似度都很高，在向量空間中并不是均勻分布的，而是構(gòu)成了一個(gè)狹窄的錐體，這在很大程度上限制了句表示的表達(dá)能力。

為了得到分布均勻的句表示，對(duì)比學(xué)習(xí)被應(yīng)用于句表示學(xué)習(xí)中。對(duì)比學(xué)習(xí)的目標(biāo)是從數(shù)據(jù)中學(xué)習(xí)到一個(gè)優(yōu)質(zhì)的語(yǔ)義表示空間。優(yōu)質(zhì)的語(yǔ)義表示空間需要正例表示分布足夠接近，同時(shí)語(yǔ)義表示盡量均勻地分布在超球面上，具體可以用以下兩種指標(biāo)來(lái)衡量：

1、對(duì)齊度（alignment）計(jì)算原始表示與正例表示的平均距離。

2、均勻性（uniformity）計(jì)算表示整體在超球面上分布的均勻程度。

因此，對(duì)比學(xué)習(xí)的思想為拉近語(yǔ)義相似的正例表示以提高對(duì)齊度，同時(shí)推開(kāi)不相關(guān)的負(fù)例以提高整個(gè)表示空間的均勻性。

以往的基于對(duì)比學(xué)習(xí)的句表示學(xué)習(xí)工作大多使用 batch 內(nèi)數(shù)據(jù)作為負(fù)例或從訓(xùn)練數(shù)據(jù)中隨機(jī)采樣負(fù)例。然而，這類(lèi)方式可能會(huì)造成抽樣偏差（sampling bias），導(dǎo)致不恰當(dāng)?shù)呢?fù)例（例如假負(fù)例或各向異性的負(fù)例）被用來(lái)學(xué)習(xí)句表示，這將損害表征空間的對(duì)齊性和統(tǒng)一性。上圖是 SimCSE 編碼的輸入句表示與批次內(nèi)其它樣本表示的余弦相似度分布?？梢钥吹剑薪咏话氲南嗨贫雀哂?0.7，直接在向量空間中推遠(yuǎn)這些負(fù)例很有可能損害模型的語(yǔ)義表示能力。

因此，本文聚焦于如何降低負(fù)采樣偏差，從而使得對(duì)比學(xué)習(xí)得到向量分布對(duì)齊、均勻的句表示。

方法簡(jiǎn)介

DCLR 聚焦于減少句表示對(duì)比學(xué)習(xí)中負(fù)采樣偏差的影響。在這個(gè)框架中，我們?cè)O(shè)計(jì)了一種基于噪聲的負(fù)例生成策略和一種懲罰假負(fù)例的實(shí)例加權(quán)方法。

基于噪聲的負(fù)例生成

對(duì)于每個(gè)輸入句，我們首先基于高斯分布初始化個(gè)噪聲向量作為負(fù)例表示：

其中為標(biāo)準(zhǔn)差。因?yàn)檫@些噪聲向量是從上述高斯分布中隨機(jī)初始化的，所以它們均勻地分布在語(yǔ)義空間中。因此，模型可以通過(guò)學(xué)習(xí)這些負(fù)例來(lái)提高語(yǔ)義空間的均勻性。

為了提高生成負(fù)例的質(zhì)量，我們考慮迭代更新負(fù)例，以捕捉語(yǔ)義空間中的非均勻性點(diǎn)。受虛擬對(duì)抗訓(xùn)練（virtual adversarial training, VAT）的啟發(fā)，我們?cè)O(shè)計(jì)了一個(gè)非均勻性（non-uniformity）損失最大化的目標(biāo)函數(shù)以產(chǎn)生梯度來(lái)改善這些負(fù)例。具體來(lái)說(shuō)，目標(biāo)函數(shù)表示為基于噪聲的負(fù)例與正例表示的對(duì)比學(xué)習(xí)損失：

其中是溫度超參數(shù)，是余弦相似度。對(duì)于每個(gè)負(fù)例，我們通過(guò) t 步梯度上升法對(duì)其進(jìn)行優(yōu)化：

其中為學(xué)習(xí)率，是 L2 范數(shù)。表示通過(guò)最大化非均勻性目標(biāo)函數(shù)產(chǎn)生的的梯度。這樣一來(lái)，基于噪音的負(fù)例將朝著句表示空間的非均勻點(diǎn)優(yōu)化。學(xué)習(xí)與這些負(fù)例的對(duì)比可以進(jìn)一步提高表示空間的均勻性。

帶有實(shí)例加權(quán)的對(duì)比學(xué)習(xí)

除了上述基于噪音的負(fù)例，我們也遵循現(xiàn)有工作，使用其它批次內(nèi)樣本表示作為負(fù)例。然而，如前文所述，批次內(nèi)負(fù)例可能包含與正例有類(lèi)似語(yǔ)義的例子，即假負(fù)例。為了緩解這個(gè)問(wèn)題，我們提出了一種實(shí)例加權(quán)的方法來(lái)懲罰假負(fù)例。由于我們無(wú)法獲得真實(shí)的負(fù)例標(biāo)簽，我們利用補(bǔ)充模型 SimCSE 來(lái)計(jì)算每個(gè)負(fù)例的權(quán)重。給定或 {hat{h}}中的一個(gè)負(fù)例表示和原始句表示，我們使用補(bǔ)全模型來(lái)計(jì)算權(quán)重：

其中是實(shí)例加權(quán)閾值，是余弦相似度函數(shù)。通過(guò)上式，與原句表示有較高語(yǔ)義相似性的負(fù)例將被視為假負(fù)例，并將被賦予 0 權(quán)重作為懲罰?；谝陨蠙?quán)重，我們用去偏的交叉熵對(duì)比學(xué)習(xí)損失函數(shù)來(lái)優(yōu)化句表示：

我們的方法使用了 SimCSE 的 dropout 正例增廣策略，但也適用于其它多種正例增廣策略。

實(shí)驗(yàn)

數(shù)據(jù)集

遵循以往的工作，我們?cè)?7 個(gè)標(biāo)準(zhǔn)語(yǔ)義文本相似度任務(wù)上進(jìn)行實(shí)驗(yàn)。這些數(shù)據(jù)集由成對(duì)句子樣本構(gòu)成，其相似性分?jǐn)?shù)被標(biāo)記為 0 到 5。標(biāo)簽分?jǐn)?shù)和句表示預(yù)測(cè)分?jǐn)?shù)之間的相關(guān)性由 Spearman 相關(guān)度來(lái)衡量。

主實(shí)驗(yàn)

我們?cè)?7 個(gè)數(shù)據(jù)集上進(jìn)行了語(yǔ)義相似度測(cè)試，并與現(xiàn)有 baseline 進(jìn)行比較?？梢钥吹剑珼CLR 的性能在絕大部分實(shí)驗(yàn)中優(yōu)于基線模型。

分析與擴(kuò)展

DCLR 框架包含兩個(gè)去偏負(fù)采樣策略，為了驗(yàn)證其有效性，我們對(duì)兩部分分別進(jìn)行了消融實(shí)驗(yàn)。除此之外，我們還考慮其它三種策略：

1、Random Noise 直接從高斯分布中生成負(fù)例，不進(jìn)行梯度優(yōu)化。

2、Knowledge Distillation 使用 SimCSE 作為教師模型在訓(xùn)練過(guò)程中向?qū)W生模型蒸餾知識(shí)。

3、Self Instance Weighting 將模型自己作為補(bǔ)全模型為實(shí)例計(jì)算權(quán)重。

結(jié)果顯示 DCLR 的性能優(yōu)于各類(lèi)變種，表明所提策略的合理性。

均勻性是句表示的一個(gè)理想特征。我們比較了 DCLR 和 SimCSE 基于 BERT-base 在訓(xùn)練期間的均勻性損失曲線。遵循 SimCSE，均勻性損失函數(shù)為：

其中是所有句表示的分布。如圖所示，隨著訓(xùn)練進(jìn)行，DCLR 的均勻性損失下降，而 SimCSE 沒(méi)有明顯的下降趨勢(shì)。這可能表明 DCLR 中基于噪聲的負(fù)例采樣方法能夠有效改善語(yǔ)義空間的均勻性。

為了驗(yàn)證 DCLR 在少樣本場(chǎng)景下的健壯性，我們?cè)?0.3% 到 100% 的數(shù)據(jù)量設(shè)定下訓(xùn)練模型。結(jié)果表明，即使在相對(duì)極端的數(shù)據(jù)設(shè)定（0.3%）下，我們的模型性能也僅僅在兩個(gè)任務(wù)中分別下降了了 9% 和 4%，這顯示了模型在少樣本場(chǎng)景中的有效性。

六. 總結(jié)

本文提出了一種緩解負(fù)采樣偏差的對(duì)比學(xué)習(xí)句表示框架 DCLR。DCLR 采用一種可梯度更新的噪聲負(fù)例生成方法來(lái)提高語(yǔ)義空間的均勻性，同時(shí)使用實(shí)例加權(quán)的方法緩解假負(fù)例問(wèn)題，提升語(yǔ)義空間對(duì)齊度。實(shí)驗(yàn)表明，該方法在大部分任務(wù)設(shè)定下優(yōu)于其它基線模型。

在未來(lái)，我們將探索其他減少句表示任務(wù)中對(duì)比學(xué)習(xí)偏差的方法（例如去偏預(yù)訓(xùn)練）。此外，我們還將考慮將我們的方法應(yīng)用于多語(yǔ)言或多模態(tài)的表示學(xué)習(xí)。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴