91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在機(jī)器學(xué)習(xí)中如何進(jìn)行基本翻譯

zhKF_jqr_AI ? 來源:未知 ? 作者:易水寒 ? 2017-12-22 11:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Statsbot數(shù)據(jù)科學(xué)家Daniil Korbut簡明扼要地介紹了用于機(jī)器學(xué)習(xí)翻譯的基本原理:RNN、LSTM、BRNN、Seq2Seq、Zero-Shot、BLEU。

我們都在使用的很多技術(shù),我們其實(shí)并不知道它們到底是如何工作的。實(shí)際上,理解機(jī)器學(xué)習(xí)驅(qū)動(dòng)的引擎并非易事。Statsbot團(tuán)隊(duì)博客希望能講清楚機(jī)器學(xué)習(xí)是怎么一回事。這次我們決定探索機(jī)器翻譯,并解釋Google翻譯算法的原理。

許多年前,翻譯來自未知語言的文本是非常耗時(shí)的。使用簡單的詞匯表逐字翻譯之所以很困難,是因?yàn)樽x者必須知道語法規(guī)則,在翻譯整句時(shí)需要記住所有的語言版本。

現(xiàn)在,我們不需要為此付出太多的努力——只需將它們粘貼到Google翻譯中,就可以翻譯短語、句子甚至大段文本。然而,大多數(shù)人實(shí)際上并不關(guān)心機(jī)器翻譯的引擎是如何工作的。本文為那些關(guān)心這個(gè)的人而寫。

深度學(xué)習(xí)翻譯問題

如果Google翻譯引擎試圖儲(chǔ)存所有的翻譯,甚至僅僅儲(chǔ)存短句的翻譯,都是行不通的,因?yàn)榭赡艿淖凅w數(shù)量巨大。最好的想法可能是教會(huì)計(jì)算機(jī)一組語法規(guī)則,并根據(jù)語法規(guī)則來翻譯句子,如果這一切真像聽起來那樣簡單的話。

如果你曾經(jīng)試過學(xué)習(xí)外語,那么你該知道規(guī)則總是有很多例外的。當(dāng)我們?cè)噲D在程序中刻畫所有這些規(guī)則,所有這些例外,乃至例外的例外時(shí),翻譯質(zhì)量就崩塌了。

現(xiàn)代機(jī)器翻譯系統(tǒng)使用不同的方法:通過分析大量文檔將文本與規(guī)則聯(lián)系起來。

創(chuàng)建你自己的簡單機(jī)器翻譯工具,對(duì)任何數(shù)據(jù)科學(xué)簡歷來說都是一個(gè)很棒的項(xiàng)目。

我們?cè)囍{(diào)查一下我們稱之為機(jī)器翻譯的“黑盒子”里隱藏著什么。深度神經(jīng)網(wǎng)絡(luò)可以在非常復(fù)雜的任務(wù)(語音/視覺對(duì)象識(shí)別)中取得優(yōu)異的結(jié)果,但是,盡管它們很靈活,卻只能應(yīng)用于具有固定維度的輸入和目標(biāo)的任務(wù)。

循環(huán)神經(jīng)網(wǎng)絡(luò)

因此,我們需要長短期記憶網(wǎng)絡(luò)(LSTM),它能應(yīng)對(duì)事先未知長度的序列。

LSTM是一種能夠?qū)W習(xí)長期依賴的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。循環(huán)神經(jīng)網(wǎng)絡(luò)看起來就像一串重復(fù)的模塊。

在機(jī)器學(xué)習(xí)中如何進(jìn)行基本翻譯

via colah.github.io

因此LSTM在模塊之間傳遞數(shù)據(jù),比如,為了生成Ht,我們不僅使用Xt,同時(shí)使用所有X之前的輸入。關(guān)于LSTM的更多信息,可參考Understanding LSTM Networks(英文)和循環(huán)神經(jīng)網(wǎng)絡(luò)入門(中文)。

雙向循環(huán)神經(jīng)網(wǎng)絡(luò)

我們的下一步是雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BRNN)。 BRNN將常規(guī)RNN的神經(jīng)元分成兩個(gè)方向。一個(gè)方向是正向的時(shí)間,或前饋狀態(tài)。另一個(gè)方向是負(fù)向的時(shí)間,或反饋狀態(tài)。這兩個(gè)狀態(tài)的輸出與反方向的狀態(tài)的輸入互不相連。

在機(jī)器學(xué)習(xí)中如何進(jìn)行基本翻譯

要理解為何BRNN效果更好,可以想像一下我們有一個(gè)包含9個(gè)單詞的句子,然后想要預(yù)測(cè)第5個(gè)單詞。我們可以讓網(wǎng)絡(luò)僅僅知道前面4個(gè)單詞,或者讓網(wǎng)絡(luò)知道前面4個(gè)單詞和后面4個(gè)單詞。顯然第二種情況下預(yù)測(cè)的質(zhì)量會(huì)更好。

序列到序列

然后是序列到序列模型(也稱為seq2seq)?;镜膕eq2seq模型包含兩個(gè)RNN:一個(gè)處理輸入的編碼網(wǎng)絡(luò)和一個(gè)生成輸出的解碼網(wǎng)絡(luò)。

最后,我們將創(chuàng)建我們的第一個(gè)機(jī)器翻譯工具!

不過,讓我們先考慮一個(gè)絕招。Google翻譯目前支持103種語言,所以我們應(yīng)該有103x102個(gè)不同的模型。當(dāng)然,取決于語言的流行程度和訓(xùn)練網(wǎng)絡(luò)需要的文檔數(shù)量,這些模型的質(zhì)量會(huì)有所不同。最好我們能創(chuàng)建一個(gè)神經(jīng)網(wǎng)絡(luò),然后這個(gè)網(wǎng)絡(luò)能接受任何語言作為輸入,然后將其翻譯成任何語言。

Google翻譯

這個(gè)想法正是Google工程師們?cè)?016年末實(shí)現(xiàn)的想法。Google工程師使用的正是我們上文提及的seq2seq模型。

唯一的例外是在編碼和解碼網(wǎng)絡(luò)之間有8層LSTM-RNN網(wǎng)絡(luò),層間有殘差連接,還有一些出于精度和速度考慮的調(diào)整。如果你想深入了解相關(guān)信息,可以看Google’s Neural Machine Translation System這篇論文。

最重要的一點(diǎn)是Google的翻譯算法使用單個(gè)系統(tǒng),而不是包含每對(duì)語言組合的龐大集合。

在輸入句子的開始,系統(tǒng)需要一個(gè)指明目標(biāo)語言的token。

這一方法改善了翻譯的質(zhì)量,同時(shí)允許翻譯那些系統(tǒng)沒有見過對(duì)應(yīng)譯文語料的語言組合,這一方法稱為“零樣本翻譯”(Zero-Shot Translation)。

更好的翻譯?

當(dāng)我們談?wù)揋oogle翻譯算法的改進(jìn)和更好的結(jié)果時(shí),我們?nèi)绾尾拍苷_地評(píng)估第一個(gè)翻譯候選比第二個(gè)候選更好呢?

這不是一個(gè)微不足道的問題,因?yàn)閷?duì)于一些常用的句子,我們有來自專業(yè)譯員的參考譯文集合,這些譯文間當(dāng)然有一些差異。

能部分解決這個(gè)問題的方法有很多,但最流行和最有效的衡量標(biāo)準(zhǔn)是BLEU(bilingual evaluation understudy)。 想象一下,我們有來自機(jī)器翻譯的兩個(gè)候選:

候選一: Statsbot makes it easy for companies to closely monitor data from various analytical platforms via natural language.

候選二:Statsbot uses natural language to accurately analyze businesses’ metrics from different analytical platforms.

在機(jī)器學(xué)習(xí)中如何進(jìn)行基本翻譯

盡管它們的意思相同,但在質(zhì)量和結(jié)構(gòu)上都有差異。

讓我們看下兩個(gè)來自人類的翻譯:

Reference 1: Statsbot helps companies closely monitor their data from different analytical platforms via natural language.

Reference 2: Statsbot allows companies to carefully monitor data from various analytics platforms by using natural language.

顯然,候選一更好,與候選二相比,候選一和人工翻譯共享更多的單詞和短語。這是簡單BLEU方法的核心想法。我們可以比較候選翻譯和參考翻譯的n元語法,并計(jì)算匹配的數(shù)量(與它們的位置無關(guān))。我們只評(píng)估n元語法的準(zhǔn)確率,因?yàn)橛?jì)算多個(gè)參考的召回很困難,評(píng)估結(jié)果是n元語法的幾何平均值。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:機(jī)器學(xué)習(xí)翻譯基本原理

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    機(jī)器學(xué)習(xí)和深度學(xué)習(xí)需避免的 7 個(gè)常見錯(cuò)誤與局限性

    ,并驗(yàn)證輸出結(jié)果,就能不斷提升專業(yè)技能,養(yǎng)成優(yōu)秀數(shù)據(jù)科學(xué)家的工作習(xí)慣。需避免的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)數(shù)據(jù)錯(cuò)誤訓(xùn)練數(shù)據(jù)驅(qū)動(dòng)的人工智能模型時(shí),我們會(huì)遇到一些常見錯(cuò)誤和局
    的頭像 發(fā)表于 01-07 15:37 ?188次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>中</b>需避免的 7 個(gè)常見錯(cuò)誤與局限性

    對(duì)于設(shè)備上的舊固件如何進(jìn)行備份和恢復(fù)?

    對(duì)于設(shè)備上的舊固件,如何進(jìn)行備份和恢復(fù)?
    發(fā)表于 12-12 08:23

    使用CW32L083系列微控制器時(shí)如何進(jìn)行系統(tǒng)復(fù)位和看門狗定時(shí)器配置?

    使用CW32L083系列微控制器時(shí),如何進(jìn)行系統(tǒng)復(fù)位和看門狗定時(shí)器配置?
    發(fā)表于 12-10 06:46

    探索RISC-V機(jī)器人領(lǐng)域的潛力

    利用Gazebo仿真環(huán)境(x86主機(jī)上運(yùn)行)和MUSE Pi Pro上的ROS 2節(jié)點(diǎn)進(jìn)行了聯(lián)合仿真。 ? 場(chǎng)景: PC的Gazebo運(yùn)行一個(gè)TurtleBot3
    發(fā)表于 12-03 14:40

    &quot;網(wǎng)關(guān)”成頂流!PROFINET轉(zhuǎn)CC-LINK,汽車產(chǎn)線的“翻譯官”出圈記

    "網(wǎng)關(guān)”成頂流!PROFINET轉(zhuǎn)CC-LINK,汽車產(chǎn)線的“翻譯官”出圈記 現(xiàn)代化汽車制造工廠內(nèi)部,機(jī)器人手臂進(jìn)行精密焊接作業(yè) 汽車制
    的頭像 發(fā)表于 11-26 16:08 ?301次閱讀
    &quot;網(wǎng)關(guān)”成頂流!PROFINET轉(zhuǎn)CC-LINK,汽車產(chǎn)線的“<b class='flag-5'>翻譯</b>官”出圈記

    L083最低功耗是多少,應(yīng)該如何進(jìn)行低功耗設(shè)計(jì)?有哪些注意事項(xiàng)?

    L083最低功耗是多少,應(yīng)該如何進(jìn)行低功耗設(shè)計(jì)?有哪些注意事項(xiàng)?
    發(fā)表于 11-12 07:29

    XKCON祥控輸煤皮帶智能機(jī)器人巡檢系統(tǒng)對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行挖掘分析

    XKCON祥控輸煤皮帶智能機(jī)器人巡檢系統(tǒng)通過智能機(jī)器人在皮帶運(yùn)行過程對(duì)皮帶的運(yùn)行狀態(tài)和環(huán)境狀況進(jìn)行實(shí)時(shí)檢測(cè),應(yīng)用過程
    的頭像 發(fā)表于 09-15 11:22 ?621次閱讀
    XKCON祥控輸煤皮帶智能<b class='flag-5'>機(jī)器</b>人巡檢系統(tǒng)對(duì)監(jiān)測(cè)數(shù)據(jù)<b class='flag-5'>進(jìn)行</b>挖掘分析

    2KW逆變側(cè)功率管的損耗如何進(jìn)行計(jì)算詳細(xì)公式免費(fèi)下載

    本文檔的主要內(nèi)容詳細(xì)介紹的是2KW逆變側(cè)功率管的損耗如何進(jìn)行計(jì)算詳細(xì)公式免費(fèi)下載。
    發(fā)表于 08-29 16:18 ?34次下載

    傳音斬獲WMT 2025國際機(jī)器翻譯大賽四項(xiàng)冠軍

    近日,由國際計(jì)算語言學(xué)協(xié)會(huì)(ACL)主辦的WMT 2025國際機(jī)器翻譯大賽,傳音低資源印度語言翻譯任務(wù)(Low-Resource In
    的頭像 發(fā)表于 08-06 18:21 ?1227次閱讀

    超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級(jí)芯片(SoC)上解鎖邊緣人工智能應(yīng)用.

    Neuton 是一家邊緣AI 公司,致力于讓機(jī)器 學(xué)習(xí)模型更易于使用。它創(chuàng)建的模型比競(jìng)爭對(duì)手的框架小10 倍,速度也快10 倍,甚至可以最先進(jìn)的邊緣設(shè)備上進(jìn)行人工智能處理。在這篇博文
    發(fā)表于 07-31 11:38

    FPGA機(jī)器學(xué)習(xí)的具體應(yīng)用

    ,越來越多地被應(yīng)用于機(jī)器學(xué)習(xí)任務(wù)。本文將探討 FPGA 機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 07-16 15:34 ?2889次閱讀

    使用MATLAB進(jìn)行無監(jiān)督學(xué)習(xí)

    無監(jiān)督學(xué)習(xí)是一種根據(jù)未標(biāo)注數(shù)據(jù)進(jìn)行推斷的機(jī)器學(xué)習(xí)方法。無監(jiān)督學(xué)習(xí)旨在識(shí)別數(shù)據(jù)隱藏的模式和關(guān)系,
    的頭像 發(fā)表于 05-16 14:48 ?1436次閱讀
    使用MATLAB<b class='flag-5'>進(jìn)行</b>無監(jiān)督<b class='flag-5'>學(xué)習(xí)</b>

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】視覺實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用

    人部署,詳細(xì)介紹了基于顏色閾值和深度學(xué)習(xí)的巡線方法。 二維碼識(shí)別則廣泛應(yīng)用于機(jī)器人定位與任務(wù)觸發(fā),例如AGV(自動(dòng)導(dǎo)引車)的路徑規(guī)劃。 深度學(xué)習(xí)
    發(fā)表于 05-03 19:41

    請(qǐng)問STM32WBA65如何進(jìn)行matter的學(xué)習(xí)?

    STM32WBA65如何進(jìn)行matter的學(xué)習(xí)?相關(guān)的支持都有哪些?有一個(gè)X-CUBE-MATTER,可是這個(gè)沒有集成STM32CubeMX
    發(fā)表于 04-24 07:22

    使用CAN以及CANIF配置了S32K310的CAN驅(qū)動(dòng)模塊,如何進(jìn)行報(bào)文的接收呢?

    CanIf_RxIndication()函數(shù)進(jìn)行接收。但是這個(gè)函數(shù)靜態(tài)代碼的邏輯應(yīng)當(dāng)是自動(dòng)調(diào)用,而不是由我在外部主程序調(diào)用?;蛘哒f這個(gè)函數(shù)
    發(fā)表于 03-21 07:24