国模一二三区欧美爱爱视屏,精品亚洲一区二区三区四区五区,99精品欧美一区二区三区蜜桃

編者按：今天外網(wǎng)有一篇論文非常火，它提出了一種序列到序列預(yù)測(cè)的新方法，無(wú)需編碼器和解碼器，只用一個(gè)2D卷積神經(jīng)網(wǎng)絡(luò)就能超過(guò)現(xiàn)有方法的性能。當(dāng)然，論文內(nèi)容絕不是點(diǎn)贊的唯一理由……重點(diǎn)是，真的好萌

摘要

當(dāng)前最先進(jìn)的機(jī)器翻譯系統(tǒng)都基于Encoder-Decoder框架：輸入序列后，系統(tǒng)先對(duì)序列進(jìn)行編碼，然后基于輸入序列的編碼生成輸出序列。為了讓系統(tǒng)能基于解碼器狀態(tài)重新組合源語(yǔ)句單詞的固定編碼，現(xiàn)在編碼器和解碼器中間往往會(huì)有一個(gè)注意力模型。

我們提出了一種替代方法，它依賴于跨兩個(gè)序列的單個(gè)2D卷積神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)的每一層都會(huì)根據(jù)到目前為止產(chǎn)生的輸出序列重新編碼源語(yǔ)句單詞。因此，其實(shí)類(lèi)似注意力的屬性在整個(gè)網(wǎng)絡(luò)中都是普遍存在的。實(shí)驗(yàn)證明，我們的模型產(chǎn)生了出色的結(jié)果，它優(yōu)于最先進(jìn)的Encoder-Decoder框架，同時(shí)，它在概念上更簡(jiǎn)單，參數(shù)也更少。

簡(jiǎn)介

現(xiàn)如今，深層神經(jīng)網(wǎng)絡(luò)對(duì)自然語(yǔ)言處理技術(shù)產(chǎn)生了深遠(yuǎn)的影響，其中以機(jī)器翻譯（MT）最為明顯。這是一種序列到序列的預(yù)測(cè)問(wèn)題，解決它的最先進(jìn)方法是使用帶注意力模塊的編碼器-解碼器模型。注意力模塊能在解碼過(guò)程中重復(fù)地重新訪問(wèn)源序列，提高模型的預(yù)測(cè)效率和精度。

但是，注意力機(jī)制存在局限。它的常規(guī)做法是在源語(yǔ)句上做簡(jiǎn)單加權(quán)，用到的權(quán)重也只是源單詞和目標(biāo)單詞之間的淺匹配結(jié)果。它只能重新組合相同的源單詞編碼，在解碼時(shí)并不能重新編碼，也無(wú)法重新解釋源序列。

為了解決這些局限，我們提出了一種基于深層2D卷積神經(jīng)網(wǎng)絡(luò)（CNN）的新方法。它和圖像、音頻生成模型的自回歸模型類(lèi)似，用源序列和目標(biāo)序列的輸出空間定義網(wǎng)絡(luò)中的2D網(wǎng)格，同時(shí)禁止卷積filter從目標(biāo)序列的單詞中獲得未來(lái)信息。具體如下圖所示：

卷積層的filter大小是3×3，它只能根據(jù)先前的輸出計(jì)算，不能讀取目標(biāo)序列內(nèi)容。圖中深藍(lán)色表示一層感受野，淺藍(lán)色是二層感受野，灰色部分是filter被禁止查看的部分

輸入源-目標(biāo)張量：設(shè)給定源語(yǔ)句的長(zhǎng)度為|s|，目標(biāo)對(duì)(s, t)的長(zhǎng)度為|t|。首先，在ds和dt維空間中通過(guò)查找表嵌入詞向量。整合兩個(gè)空間，f0= dt+ ds，把嵌入的詞向量{x1, . . . , x|s|}和{y1, . . . , y|t|}并成三維向量X∈R|t|×|s|×f0，其中，

這是卷積神經(jīng)網(wǎng)絡(luò)的輸入。

卷積層：卷積層參考的是DenseNet的架構(gòu)，這是圖像分類(lèi)任務(wù)上的最新技術(shù)。網(wǎng)絡(luò)中的層都是密集連接的，這意味著不僅是最后一層，每個(gè)層都會(huì)把前一層的激活函數(shù)輸出作為自己的輸入，從而生成g特征映射。這個(gè)參數(shù)g是“增長(zhǎng)率”，表示每層網(wǎng)絡(luò)輸出的附加通道數(shù)。

DenseNet架構(gòu)

目標(biāo)序列預(yù)測(cè)：從最初的f0特征映射開(kāi)始，DenseNet中的每一層l∈{1, . . . , L}會(huì)產(chǎn)生一個(gè)大小為|t|×|s|×fl的張量，其中fl是該層的輸出通道數(shù)。

為了計(jì)算輸出中的單詞分布，我們要折疊張量的第二維，因?yàn)樗鼇?lái)自輸入序列的可變長(zhǎng)度，能檢索每個(gè)目標(biāo)位置的唯一編碼。而做到這點(diǎn)的具體方法是添加一個(gè)最大池化層或?qū)斎胄蛄凶銎骄鼗?。完成池化后，我們可以根?jù)詞典用特征進(jìn)行預(yù)測(cè)。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)階段，我們測(cè)試了深層CNN和先進(jìn)編碼器-解碼器機(jī)器翻譯模型在IWSLT德英互譯任務(wù)上的效果，數(shù)據(jù)如上表所示。其中Pervasive Attention是本文提出的方法?？梢园l(fā)現(xiàn)，無(wú)論是德譯英還是英譯德，各模型在BPE（字節(jié)對(duì)編碼）上獲得的所有結(jié)果都優(yōu)于基于單詞的結(jié)果。

而橫向?qū)Ρ葋?lái)看，Pervasive Attention和RNN Reasearch有相同的參數(shù)量，但前者的BLEU分?jǐn)?shù)比后者高了近3點(diǎn)。Vaswani等人和Gehring等人提出的兩個(gè)模型可以被看作是近期的最新研究，相比之前的記錄，它們確實(shí)有不小的進(jìn)步，但Pervasive Attention還是超過(guò)了它們，并且參數(shù)只有它們的1/3和1/8。

從計(jì)算成本看，Pervasive Attention和RNN Reasearch差不多；而convs2s由于進(jìn)行了很好的優(yōu)化，訓(xùn)練用時(shí)更短。

小結(jié)

本文提出了一種新的神經(jīng)機(jī)器翻譯架構(gòu)，它脫離了編碼器-解碼器的范疇，能把源序列和目標(biāo)序列聯(lián)合編碼為深度特征層次結(jié)構(gòu)，其中源語(yǔ)句單詞會(huì)被嵌入部分目標(biāo)序列的上下文中。

總得來(lái)看，這是一個(gè)基于DenseNet的二維CNN，它具有類(lèi)似注意力機(jī)制的屬性，理念更簡(jiǎn)單，參數(shù)更好，性能也更好。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3953

瀏覽量
142612
神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4838

瀏覽量
107750
機(jī)器翻譯

機(jī)器翻譯

+關(guān)注

關(guān)注
0

文章
141

瀏覽量
15526