不卡AV网站亚洲日韩色图,日韩有码电影在线观看,啊啊啊啊啊在线免费观看

Multilingual是NLP中的研究熱點(diǎn)之一，其中的一個(gè)研究方向是如何構(gòu)建多語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型，實(shí)現(xiàn)不同語(yǔ)言的在隱空間的對(duì)齊，一個(gè)模型支持多語(yǔ)種的NLP任務(wù)，同時(shí)利用數(shù)據(jù)豐富的語(yǔ)言提升數(shù)據(jù)較少的語(yǔ)言效果。這篇文章就為大家整理了Multilingual多語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型的套路，包括XLM、XLM-R、ERNIE-M、Unicoder、ALM等5個(gè)經(jīng)典模型，以及這些模型之間的演進(jìn)關(guān)系。

1XLM：多語(yǔ)言預(yù)訓(xùn)練的起點(diǎn)

隨著B(niǎo)ERT、GPT預(yù)訓(xùn)練語(yǔ)言模型的興起，這些方法也被自然而然的用在了多語(yǔ)言預(yù)訓(xùn)練任務(wù)上。通過(guò)在BERT、GPT等成熟的NLP模型結(jié)構(gòu)上同時(shí)學(xué)習(xí)多個(gè)語(yǔ)言的語(yǔ)料，并設(shè)計(jì)多語(yǔ)言對(duì)齊任務(wù)，實(shí)現(xiàn)了Multilingual預(yù)訓(xùn)練語(yǔ)言模型，應(yīng)用到下游各種語(yǔ)言的任務(wù)中。

Facebook在Crosslingual language model pretraining（NIPS 2019）一文中提出XLM預(yù)訓(xùn)練多語(yǔ)言模型，整體思路基于BERT，并提出了針對(duì)多語(yǔ)言預(yù)訓(xùn)練的3個(gè)優(yōu)化任務(wù)。后續(xù)很多多語(yǔ)言預(yù)訓(xùn)練工作都建立在XLM的基礎(chǔ)上，我們來(lái)詳細(xì)看看XLM的整體訓(xùn)練過(guò)程。

首先，需要構(gòu)造一個(gè)多語(yǔ)言的vocabulary list。XLM讓所有語(yǔ)言共用同一個(gè)詞表，利用Byte Pair Encoding (BPE)的方法從所有語(yǔ)言中采樣文本構(gòu)造詞典。為了提升low-resource語(yǔ)言采樣比例，緩解預(yù)訓(xùn)練模型偏向high-resource語(yǔ)言，在采樣過(guò)程中會(huì)對(duì)各個(gè)語(yǔ)言采樣比例做一定的矯正。通過(guò)多種語(yǔ)言共用一個(gè)BPE詞表的方法，便于不同語(yǔ)言的token embedding在隱空間對(duì)齊，也能提取到不同語(yǔ)言共用的token。

模型預(yù)訓(xùn)練主要包括兩個(gè)任務(wù)，分別是MLM和TLM。其中MLM和BERT中采用的方式類(lèi)似，mask部分token進(jìn)行預(yù)測(cè)。TLM是Translation Language Model，這個(gè)任務(wù)為了引入多語(yǔ)言的對(duì)齊關(guān)系，將兩種語(yǔ)言的文本拼接到一起采用mask token的方式預(yù)測(cè)。這樣在預(yù)測(cè)過(guò)程中，既可以根據(jù)本語(yǔ)言的信息預(yù)測(cè)，也可以根據(jù)另一種語(yǔ)言的信息預(yù)測(cè)。此外，XLM引入了language embedding，用來(lái)標(biāo)明每個(gè)位置上的token屬于哪個(gè)語(yǔ)言。XLM的兩個(gè)預(yù)訓(xùn)練任務(wù)如下圖所示。

2XLM-R：更細(xì)致的XLM

Unsupervised cross-lingual representation learning at scale（ACL 2019）在XLM的基礎(chǔ)上進(jìn)一步分析了影響多語(yǔ)言預(yù)訓(xùn)練模型效果的因素，提出在100多種語(yǔ)言上預(yù)訓(xùn)練得到的XLM-R模型。下面列舉了本文中的核心實(shí)驗(yàn)結(jié)論，揭示了不同的多語(yǔ)言訓(xùn)練方式對(duì)效果的影響。

圖2顯示了隨著預(yù)訓(xùn)練過(guò)程引入語(yǔ)言種類(lèi)的變化，low resource語(yǔ)言的效果先上升后下降。這是因?yàn)樵谀Ｐ蚦apacity一定的情況下，引入多種語(yǔ)言一方面會(huì)讓low resource語(yǔ)言獲得可遷移的知識(shí)，另一方面過(guò)多的語(yǔ)言也稀釋了模型的capacity，每種語(yǔ)言能夠使用的capacity減少，導(dǎo)致效果下降。而high resource語(yǔ)言的效果隨著引入語(yǔ)言數(shù)量的增加是持續(xù)下降的。圖4顯示，增加模型尺寸可以緩解多語(yǔ)言稀釋capacity的問(wèn)題（7種語(yǔ)言和30種語(yǔ)言效果對(duì)比），但是引入100種語(yǔ)言后即使增加模型尺寸效果仍然不佳。

圖5展示了不同語(yǔ)言采樣權(quán)重變化的效果影響，low resource和high resource語(yǔ)言之間存在一定的矛盾性，因此隨著采樣偏向于high resource語(yǔ)言，low resource語(yǔ)言的效果越來(lái)越差。圖6則展示了詞典尺寸大小對(duì)效果的影響，詞典尺寸增大，對(duì)應(yīng)embedding層尺寸增加，可以比較明顯的提升多語(yǔ)言預(yù)訓(xùn)練模型效果。

基于以上這些實(shí)驗(yàn)的分析，作者提出了基于RoBerta的XLM-R，在100余種語(yǔ)言、2.5T的數(shù)據(jù)上預(yù)訓(xùn)練，取得了在XNLI數(shù)據(jù)集上相比基礎(chǔ)版XLM模型15%的效果提升。相比于XLM，XLM-R最大的區(qū)別之一是沒(méi)有使用TLM這個(gè)預(yù)訓(xùn)練任務(wù)，所有預(yù)訓(xùn)練數(shù)據(jù)都是單語(yǔ)言的，不包括兩個(gè)語(yǔ)言對(duì)齊的數(shù)據(jù)。

3ERINE-M：回譯的引入

ERNIE-M: Enhanced multilingual representation by aligning cross-lingual semantics with monolingual corpora（EMNLP 2019）基于XLM-R提出了ERNIE-M模型，主要是在MMLM、TLM兩個(gè)任務(wù)以外，新引入了CAMLM（Cross-attention Masked Language Modeling）和BTMLM（Back-translation Masked Language Modeling）兩個(gè)額外的任務(wù)。其中CAMLM任務(wù)和TLM任務(wù)類(lèi)似，都是用翻譯文本對(duì)作為輸入，預(yù)測(cè)被mask的token，區(qū)別在于TLM在預(yù)測(cè)一個(gè)mask token時(shí)可以同時(shí)參考兩種語(yǔ)言的所有信息，而CAMLM在預(yù)測(cè)source句子中被mask的token時(shí)，只能使用target句子的信息；在預(yù)測(cè)target句子中被mask的token時(shí)，只能使用source句子的信息。實(shí)現(xiàn)上做了一個(gè)mask的操作，強(qiáng)制讓模型只能用另一種語(yǔ)言的context預(yù)測(cè)本語(yǔ)言的mask token，提升模型的多語(yǔ)言對(duì)齊能力。CAMLM和MMLM、TLM等任務(wù)的區(qū)別如下圖所示。

不論是TLM還是CAMLM，都需要使用parallel的句子，如果可用的parallel數(shù)據(jù)較少，就會(huì)影響對(duì)齊效果。因此，文中提出了第二個(gè)任務(wù)BTMLM，利用CAMLM學(xué)到的多語(yǔ)言之間的對(duì)齊關(guān)系，將回譯任務(wù)融入到預(yù)訓(xùn)練中。核心思路是，使用CAMLM預(yù)訓(xùn)練好的模型，根據(jù)單語(yǔ)言語(yǔ)料生成另一種語(yǔ)言的偽數(shù)據(jù)，利用這個(gè)偽數(shù)據(jù)作為輸入，構(gòu)造parallel句子作為輸入。BTMLM的示意圖如下。第一步將單語(yǔ)言輸入后面接mask，利用CAMLM預(yù)訓(xùn)練多語(yǔ)言模型生成mask部分的token，得到偽樣本（即隱空間中當(dāng)前樣本在另一種樣本下的翻譯）。接下來(lái)，將偽樣本作為輸入，以MLM為目標(biāo)，同時(shí)使用源句子和偽樣本預(yù)測(cè)被mask掉的token。這種方式相當(dāng)于一種數(shù)據(jù)增強(qiáng)手段，通過(guò)模型自動(dòng)生成parallel數(shù)據(jù)，緩解了parallel數(shù)據(jù)不足的問(wèn)題。

4Unicoder：多語(yǔ)言對(duì)齊任務(wù)的優(yōu)化

Unicoder: A Universal Language Encoder by Pre-training with Multiple Crosslingual Tasks（ACL 2019）提出了多語(yǔ)言預(yù)訓(xùn)練模型Unicoder。在XLM中，模型的訓(xùn)練任務(wù)主要是單語(yǔ)言的，Unicoder提出了3種新的多語(yǔ)言對(duì)齊任務(wù)來(lái)提升預(yù)訓(xùn)練多語(yǔ)言模型效果。

第一個(gè)任務(wù)是Cross-lingual Word Recovery，輸入是兩種語(yǔ)言的語(yǔ)句pair對(duì)（X，Y），然后利用attention的方法將X用Y表示，再利用這些表示還原X。這其實(shí)類(lèi)似于一個(gè)基于attention的翻譯任務(wù)，實(shí)現(xiàn)了不同語(yǔ)言之間的word alignment。

第二個(gè)任務(wù)是Cross-lingual Paraphrase Classification，是一個(gè)分類(lèi)任務(wù)。輸入同樣是兩個(gè)語(yǔ)言的句子對(duì)，預(yù)測(cè)這兩個(gè)句子是否表達(dá)的是同一個(gè)含義。數(shù)據(jù)集的構(gòu)造方法上，正樣本采用機(jī)器翻譯數(shù)據(jù)集的數(shù)據(jù)構(gòu)造正樣本。為了構(gòu)造hard負(fù)樣本，即語(yǔ)義在一定程度上相似但不是互為翻譯的文本對(duì)，作者采用了Effective Parallel Corpus Mining using Bilingual Sentence Embeddings（2018）提出的hard negatives構(gòu)造方法。先使用隨機(jī)采樣的負(fù)樣本構(gòu)造簡(jiǎn)單負(fù)樣本訓(xùn)練一個(gè)baseline模型，再利用這個(gè)模型計(jì)算當(dāng)前樣本和所有負(fù)樣本相似度，取相似度最高且又不是正樣本的負(fù)樣本，作為hard negatives。

第三個(gè)任務(wù)是Cross-lingual Masked Language Model，將一些文檔級(jí)別翻譯較好的數(shù)據(jù)集的兩種語(yǔ)言進(jìn)行重組，得到多語(yǔ)言document，在這種多語(yǔ)言document上以Mask Language Model為優(yōu)化目標(biāo)訓(xùn)練。三種不同的預(yù)訓(xùn)練任務(wù)如下圖所示。

5ALM：樣本構(gòu)造上的創(chuàng)新

Alternating Language Modeling for Cross-Lingual Pre-Training（AAAI 2020）提出一種新的多語(yǔ)言模型預(yù)訓(xùn)練方式。之前的做法如XLM都是將多語(yǔ)言文本對(duì)拼接到一起，而本文提出的ALM方法通過(guò)將源語(yǔ)言中的部分短語(yǔ)替換成另一種語(yǔ)言，生成了多語(yǔ)言交替的樣本作為訓(xùn)練樣本，以Transformer為基礎(chǔ)在這種樣本上進(jìn)行Mask Language Model的學(xué)習(xí)。這種方法強(qiáng)制讓每次預(yù)測(cè)被mask掉的單詞時(shí)，都要參考其他語(yǔ)言的信息，進(jìn)一步縮小了不同語(yǔ)言在隱空間的距離。

6總結(jié)

以上就是多語(yǔ)言預(yù)訓(xùn)練中5個(gè)經(jīng)典模型的介紹。除了本文介紹的預(yù)訓(xùn)練語(yǔ)言模型外，對(duì)比學(xué)習(xí)、meta-learning等方法在Multilingual中也有很多應(yīng)用。多語(yǔ)言任務(wù)還是非常重要的，尤其當(dāng)今很多企業(yè)都展開(kāi)國(guó)際化戰(zhàn)略，拓展海外市場(chǎng)，多語(yǔ)言建模技術(shù)更成為不可缺少的能力。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴