91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種新的神經(jīng)機(jī)器翻譯架構(gòu),它脫離了編碼器-解碼器的范疇

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-08-23 09:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:今天外網(wǎng)有一篇論文非常火,它提出了一種序列到序列預(yù)測(cè)的新方法,無(wú)需編碼器和解碼器,只用一個(gè)2D卷積神經(jīng)網(wǎng)絡(luò)就能超過(guò)現(xiàn)有方法的性能。當(dāng)然,論文內(nèi)容絕不是點(diǎn)贊的唯一理由……重點(diǎn)是,真的好萌

摘要

當(dāng)前最先進(jìn)的機(jī)器翻譯系統(tǒng)都基于Encoder-Decoder框架:輸入序列后,系統(tǒng)先對(duì)序列進(jìn)行編碼,然后基于輸入序列的編碼生成輸出序列。為了讓系統(tǒng)能基于解碼器狀態(tài)重新組合源語(yǔ)句單詞的固定編碼,現(xiàn)在編碼器和解碼器中間往往會(huì)有一個(gè)注意力模型。

我們提出了一種替代方法,它依賴于跨兩個(gè)序列的單個(gè)2D卷積神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)的每一層都會(huì)根據(jù)到目前為止產(chǎn)生的輸出序列重新編碼源語(yǔ)句單詞。因此,其實(shí)類(lèi)似注意力的屬性在整個(gè)網(wǎng)絡(luò)中都是普遍存在的。實(shí)驗(yàn)證明,我們的模型產(chǎn)生了出色的結(jié)果,它優(yōu)于最先進(jìn)的Encoder-Decoder框架,同時(shí),它在概念上更簡(jiǎn)單,參數(shù)也更少。

簡(jiǎn)介

現(xiàn)如今,深層神經(jīng)網(wǎng)絡(luò)對(duì)自然語(yǔ)言處理技術(shù)產(chǎn)生了深遠(yuǎn)的影響,其中以機(jī)器翻譯(MT)最為明顯。這是一種序列到序列的預(yù)測(cè)問(wèn)題,解決它的最先進(jìn)方法是使用帶注意力模塊的編碼器-解碼器模型。注意力模塊能在解碼過(guò)程中重復(fù)地重新訪問(wèn)源序列,提高模型的預(yù)測(cè)效率和精度。

但是,注意力機(jī)制存在局限。它的常規(guī)做法是在源語(yǔ)句上做簡(jiǎn)單加權(quán),用到的權(quán)重也只是源單詞和目標(biāo)單詞之間的淺匹配結(jié)果。它只能重新組合相同的源單詞編碼,在解碼時(shí)并不能重新編碼,也無(wú)法重新解釋源序列。

為了解決這些局限,我們提出了一種基于深層2D卷積神經(jīng)網(wǎng)絡(luò)(CNN)的新方法。它和圖像、音頻生成模型的自回歸模型類(lèi)似,用源序列和目標(biāo)序列的輸出空間定義網(wǎng)絡(luò)中的2D網(wǎng)格,同時(shí)禁止卷積filter從目標(biāo)序列的單詞中獲得未來(lái)信息。具體如下圖所示:

卷積層的filter大小是3×3,它只能根據(jù)先前的輸出計(jì)算,不能讀取目標(biāo)序列內(nèi)容。圖中深藍(lán)色表示一層感受野,淺藍(lán)色是二層感受野,灰色部分是filter被禁止查看的部分

輸入源-目標(biāo)張量:設(shè)給定源語(yǔ)句的長(zhǎng)度為|s|,目標(biāo)對(duì)(s, t)的長(zhǎng)度為|t|。首先,在ds和dt維空間中通過(guò)查找表嵌入詞向量。整合兩個(gè)空間,f0= dt+ ds,把嵌入的詞向量{x1, . . . , x|s|}和{y1, . . . , y|t|}并成三維向量X∈R|t|×|s|×f0,其中,

這是卷積神經(jīng)網(wǎng)絡(luò)的輸入。

卷積層:卷積層參考的是DenseNet的架構(gòu),這是圖像分類(lèi)任務(wù)上的最新技術(shù)。網(wǎng)絡(luò)中的層都是密集連接的,這意味著不僅是最后一層,每個(gè)層都會(huì)把前一層的激活函數(shù)輸出作為自己的輸入,從而生成g特征映射。這個(gè)參數(shù)g是“增長(zhǎng)率”,表示每層網(wǎng)絡(luò)輸出的附加通道數(shù)。

DenseNet架構(gòu)

目標(biāo)序列預(yù)測(cè):從最初的f0特征映射開(kāi)始,DenseNet中的每一層l∈{1, . . . , L}會(huì)產(chǎn)生一個(gè)大小為|t|×|s|×fl的張量,其中fl是該層的輸出通道數(shù)。

為了計(jì)算輸出中的單詞分布,我們要折疊張量的第二維,因?yàn)樗鼇?lái)自輸入序列的可變長(zhǎng)度,能檢索每個(gè)目標(biāo)位置的唯一編碼。而做到這點(diǎn)的具體方法是添加一個(gè)最大池化層或?qū)斎胄蛄凶銎骄鼗?。完成池化后,我們可以根?jù)詞典用特征進(jìn)行預(yù)測(cè)。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)階段,我們測(cè)試了深層CNN和先進(jìn)編碼器-解碼器機(jī)器翻譯模型在IWSLT德英互譯任務(wù)上的效果,數(shù)據(jù)如上表所示。其中Pervasive Attention是本文提出的方法??梢园l(fā)現(xiàn),無(wú)論是德譯英還是英譯德,各模型在BPE(字節(jié)對(duì)編碼)上獲得的所有結(jié)果都優(yōu)于基于單詞的結(jié)果。

而橫向?qū)Ρ葋?lái)看,Pervasive Attention和RNN Reasearch有相同的參數(shù)量,但前者的BLEU分?jǐn)?shù)比后者高了近3點(diǎn)。Vaswani等人和Gehring等人提出的兩個(gè)模型可以被看作是近期的最新研究,相比之前的記錄,它們確實(shí)有不小的進(jìn)步,但Pervasive Attention還是超過(guò)了它們,并且參數(shù)只有它們的1/3和1/8。

從計(jì)算成本看,Pervasive Attention和RNN Reasearch差不多;而convs2s由于進(jìn)行了很好的優(yōu)化,訓(xùn)練用時(shí)更短。

小結(jié)

本文提出了一種新的神經(jīng)機(jī)器翻譯架構(gòu),它脫離了編碼器-解碼器的范疇,能把源序列和目標(biāo)序列聯(lián)合編碼為深度特征層次結(jié)構(gòu),其中源語(yǔ)句單詞會(huì)被嵌入部分目標(biāo)序列的上下文中。

總得來(lái)看,這是一個(gè)基于DenseNet的二維CNN,它具有類(lèi)似注意力機(jī)制的屬性,理念更簡(jiǎn)單,參數(shù)更好,性能也更好。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3953

    瀏覽量

    142612
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4838

    瀏覽量

    107750
  • 機(jī)器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    141

    瀏覽量

    15526

原文標(biāo)題:Pervasive Attention:用于序列到序列預(yù)測(cè)的2D卷積神經(jīng)網(wǎng)絡(luò)

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    機(jī)器翻譯三大核心技術(shù)原理 | AI知識(shí)科普

    機(jī)器翻譯神經(jīng)機(jī)器翻譯。基于規(guī)則的機(jī)器翻譯大概有三技術(shù)路線,第一種是直接
    發(fā)表于 07-06 10:30

    機(jī)器翻譯三大核心技術(shù)原理 | AI知識(shí)科普 2

    是端到端序列生成模型,是將輸入序列變換到輸出序列的一種框架和方法。其核心部分有兩點(diǎn),是如何表征輸入序列(編碼),二是如何獲得輸出序列(解碼)。對(duì)于
    發(fā)表于 07-06 10:46

    神經(jīng)機(jī)器翻譯的方法有哪些?

    目前,神經(jīng)機(jī)器翻譯(NMT)已經(jīng)成為在學(xué)術(shù)界和工業(yè)界最先進(jìn)的機(jī)器翻譯方法。最初的這種基于編碼器-解碼器
    發(fā)表于 11-23 12:14

    神經(jīng)機(jī)器翻譯編碼-解碼架構(gòu)有了新進(jìn)展, 具體要怎么配置?

    景智AI編譯。翻譯/? 崔躍輝、葉倚青校對(duì)/? 葉倚青用于循環(huán)神經(jīng)網(wǎng)絡(luò)的編碼-解碼架構(gòu),在標(biāo)準(zhǔn)機(jī)器翻譯
    發(fā)表于 07-09 22:53 ?641次閱讀

    基于結(jié)構(gòu)感知的雙編碼器解碼器模型

    ,在常見(jiàn)端到端翻譯模型的基礎(chǔ)上,利用代碼抽象語(yǔ)法樹(shù)將源代碼的結(jié)構(gòu)信息嵌入到編碼器解碼器翻譯模型中,提出一種基于結(jié)構(gòu)感知的雙
    發(fā)表于 05-26 15:38 ?5次下載

    PyTorch教程10.6之編碼器-解碼器架構(gòu)

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程10.6之編碼器-解碼器架構(gòu).pdf》資料免費(fèi)下載
    發(fā)表于 06-05 18:12 ?0次下載
    PyTorch教程10.6之<b class='flag-5'>編碼器</b>-<b class='flag-5'>解碼器</b><b class='flag-5'>架構(gòu)</b>

    PyTorch教程10.7之用于機(jī)器翻譯編碼器-解碼器Seq2Seq

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程10.7之用于機(jī)器翻譯編碼器-解碼器Seq2Seq.pdf》資料免費(fèi)下載
    發(fā)表于 06-05 18:14 ?0次下載
    PyTorch教程10.7之用于<b class='flag-5'>機(jī)器翻譯</b>的<b class='flag-5'>編碼器</b>-<b class='flag-5'>解碼器</b>Seq2Seq

    PyTorch教程-10.6. 編碼器-解碼器架構(gòu)

    。 圖 10.6.1編碼器-解碼器架構(gòu)。? 讓我們以從英語(yǔ)到法語(yǔ)的機(jī)器翻譯為例。給定個(gè)英文輸入序列:“They”、“are”、
    的頭像 發(fā)表于 06-05 15:44 ?1579次閱讀
    PyTorch教程-10.6. <b class='flag-5'>編碼器</b>-<b class='flag-5'>解碼器</b><b class='flag-5'>架構(gòu)</b>

    PyTorch教程-10.7. 用于機(jī)器翻譯編碼器-解碼器 Seq2Seq

    序列組成,我們通常依賴編碼器-解碼器架構(gòu)(第10.6 節(jié))。在本節(jié)中,我們將演示編碼器-解碼器架構(gòu)
    的頭像 發(fā)表于 06-05 15:44 ?1540次閱讀
    PyTorch教程-10.7. 用于<b class='flag-5'>機(jī)器翻譯</b>的<b class='flag-5'>編碼器</b>-<b class='flag-5'>解碼器</b> Seq2Seq

    基于transformer的編碼器-解碼器模型的工作原理

    與基于 RNN 的編碼器-解碼器模型類(lèi)似,基于 transformer 的編碼器-解碼器模型由個(gè)編碼器
    發(fā)表于 06-11 14:17 ?3202次閱讀
    基于transformer的<b class='flag-5'>編碼器</b>-<b class='flag-5'>解碼器</b>模型的工作原理

    基于 RNN 的解碼器架構(gòu)如何建模

    language processing,NLP) 領(lǐng)域編碼器-解碼器架構(gòu)的?事實(shí)標(biāo)準(zhǔn)?。 最近基于 transformer 的編碼器-解碼器
    的頭像 發(fā)表于 06-12 17:08 ?1789次閱讀
    基于 RNN 的<b class='flag-5'>解碼器</b><b class='flag-5'>架構(gòu)</b>如何建模

    基于 Transformers 的編碼器-解碼器模型

    基于 transformer 的編碼器-解碼器模型是 表征學(xué)習(xí) 和 模型架構(gòu) 這兩個(gè)領(lǐng)域多年研究成果的結(jié)晶。本文簡(jiǎn)要介紹了神經(jīng)編碼器-
    的頭像 發(fā)表于 06-16 16:53 ?1836次閱讀
    基于 Transformers 的<b class='flag-5'>編碼器</b>-<b class='flag-5'>解碼器</b>模型

    神經(jīng)編碼器-解碼器模型的歷史

    基于 transformer 的編碼器-解碼器模型是 表征學(xué)習(xí) 和 模型架構(gòu) 這兩個(gè)領(lǐng)域多年研究成果的結(jié)晶。本文簡(jiǎn)要介紹了神經(jīng)編碼器-
    的頭像 發(fā)表于 06-20 15:42 ?1819次閱讀
    <b class='flag-5'>神經(jīng)</b><b class='flag-5'>編碼器</b>-<b class='flag-5'>解碼器</b>模型的歷史

    詳解編碼器解碼器電路

    編碼器解碼器是組合邏輯電路,在其中,主要借助布爾代數(shù)實(shí)現(xiàn)組合邏輯。今天就大家了解編碼器解碼器電路,分別從定義,工作原理,應(yīng)用,真值表
    的頭像 發(fā)表于 07-14 09:07 ?5499次閱讀
    詳解<b class='flag-5'>編碼器</b>和<b class='flag-5'>解碼器</b>電路

    視頻編碼器解碼器的應(yīng)用方案

    視頻解碼器和視頻編碼器在數(shù)字通訊、音視頻壓縮領(lǐng)域有著廣泛的應(yīng)用。視頻編碼器作為視頻源的發(fā)送端,若接收端如果是?PC?機(jī)或顯示設(shè)備就需要通過(guò)解碼器進(jìn)行
    的頭像 發(fā)表于 08-14 14:38 ?2218次閱讀
    視頻<b class='flag-5'>編碼器</b>與<b class='flag-5'>解碼器</b>的應(yīng)用方案