91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟在EMNLP2020上發(fā)表最新工作

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:NLPCAB ? 作者:NLPCAB ? 2020-10-22 11:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來(lái)自:NLPCAB

句子表示在很多任務(wù)中都是重要的一環(huán)。尤其是在大數(shù)據(jù)量的場(chǎng)景下,很多場(chǎng)景都需要召回+排序兩個(gè)步驟,如果第一個(gè)環(huán)節(jié)沒(méi)有召回候選結(jié)果,那最后的排序模型再怎么優(yōu)秀也沒(méi)法給出正確答案。

今天就給大家介紹一個(gè)微軟在EMNLP2020上發(fā)表的最新工作,利用transformer生成更高質(zhì)量的句子編碼。

雖然BERT式模型的出現(xiàn)解決了很多判別問(wèn)題,但直接用無(wú)監(jiān)督語(yǔ)料訓(xùn)練出的BERT做句子表示并不理想:

如果只取CLS,這個(gè)表示是針對(duì)NSP進(jìn)行優(yōu)化的,表示的信息有限

如果取平均或最大池化,可能會(huì)把無(wú)用信息計(jì)算進(jìn)來(lái),增加噪聲

所以作者的改進(jìn)目的是設(shè)計(jì)一個(gè)下游任務(wù),直接優(yōu)化得到的句子embedding。

那怎么設(shè)計(jì)目標(biāo)才能充分利用無(wú)監(jiān)督數(shù)據(jù)呢?

作者給出了一個(gè)巧妙的方法,就是用周邊其他句子的表示預(yù)測(cè)當(dāng)前句子的token。

具體的做法是:先利用Transformer抽取句子表示,再對(duì)句子表示進(jìn)行attention,選取相關(guān)的句子預(yù)測(cè)當(dāng)前token。有點(diǎn)Hierarchical Attention的意思。

比如在預(yù)測(cè)上圖中最后一句的黃藍(lán)兩個(gè)token時(shí),明顯第一句的信息就夠用了,那目標(biāo)函數(shù)的設(shè)置會(huì)讓第一句的權(quán)重變大,也會(huì)讓抽取出的句子表示去包含這些信息。

接下來(lái)詳細(xì)介紹一下預(yù)訓(xùn)練和精調(diào)的步驟,以及作者加入的其他tricks。

Cross-Thought模型

預(yù)訓(xùn)練

下圖是預(yù)訓(xùn)練的模型結(jié)構(gòu),計(jì)算的步驟是:

將段落按順序拆成獨(dú)立短句,通過(guò)12層Transformer(藍(lán)色半透明的矩形)分別進(jìn)行編碼。在實(shí)際的預(yù)訓(xùn)練中,每個(gè)sample包含500個(gè)長(zhǎng)度為64的短句,batch size是128(16張V100)

取出 ... 等special token的輸出(大紅點(diǎn))作為句子表示

把每列句子表示作為一個(gè)序列輸入到cross-sequence transformer(藍(lán)色弧線,每一列的cross-sequence transformer參數(shù)都不同),輸出attention分?jǐn)?shù)加權(quán)后的新表示

將新的句子表示與第一步的token表示進(jìn)行拼接,經(jīng)過(guò)一層transformer,預(yù)測(cè)被mask的15%個(gè)token(每個(gè)句子都這么處理,圖中只畫(huà)了第一個(gè)句子的)

整體流程理解起來(lái)比較簡(jiǎn)單,作者還用了一些額外的tricks提升效果:

為了抽取更多的信息,在句子開(kāi)頭加入了多個(gè)占位token(之前BERT只有一個(gè)[CLS]),在實(shí)驗(yàn)結(jié)論中發(fā)現(xiàn)5個(gè)占位的表現(xiàn)較好(但占位token的增加會(huì)加大計(jì)算量)

占位token的位置表示是固定的,而真實(shí)token是隨機(jī)從0-564中抽取連續(xù)的64個(gè),這樣可以訓(xùn)練更多的位置表示,方便之后對(duì)更長(zhǎng)的序列進(jìn)行編碼

精調(diào)

精調(diào)主要是考慮和下游任務(wù)的銜接。作者選擇了問(wèn)答和句子對(duì)分類(lèi)來(lái)驗(yàn)證模型的表現(xiàn)。

對(duì)于問(wèn)答任務(wù),假設(shè)答案句子的表示都已經(jīng)編碼好了:

輸入問(wèn)題,經(jīng)過(guò)12層Transformer得到問(wèn)題表示

利用cross-sequence transformers,對(duì)問(wèn)題表示與答案表示進(jìn)行計(jì)算,得到各個(gè)答案的權(quán)重 (每列都會(huì)得到一個(gè),作者對(duì)所有列取了平均)

根據(jù)gold answer的index m,計(jì)算Ranking loss(代表第0個(gè)答案的權(quán)重)

對(duì)于句子對(duì)分類(lèi)任務(wù)比較簡(jiǎn)潔,輸入兩個(gè)句子A和B:

分別對(duì)A和B進(jìn)行編碼,取出句子表示,輸入cross-sequence transformers得到融合后的句子表示

將兩個(gè)句子的所有表示拼接起來(lái),得到2Nxd的矩陣(N是占位token的個(gè)數(shù),d是表示的維度)

把第二步得到的表示flatten,得到一個(gè)長(zhǎng)度 2Nd 的一維向量,輸入到分類(lèi)層

實(shí)驗(yàn)效果

作者在不少數(shù)據(jù)集上都驗(yàn)證了效果,單純從輸出句子表示的效果來(lái)看,不僅是句間關(guān)系還是問(wèn)答的候選召回上都有不小的提升,尤其是召回:

除了指標(biāo)對(duì)比外,作者還展示了兩個(gè)無(wú)監(jiān)督預(yù)訓(xùn)練模型的打分結(jié)果:

總結(jié)

近兩年句子表示的研究越來(lái)越少了,因?yàn)榫渥颖硎窘?jīng)常用于句間關(guān)系判斷的任務(wù),而交互式的判別顯然比雙塔效果要好。所以研究者們要不在研究更輕量的句間匹配模型(比如RE2、Deformer),要不就是繼續(xù)用BERT類(lèi)模型做出更好的效果。但對(duì)于業(yè)界來(lái)說(shuō),句子表示在召回上的速度還是最快的,效果也比單純的字面匹配要好。

為了充分利用無(wú)監(jiān)督數(shù)據(jù)、得到更高質(zhì)量的句子表示,Cross-Thought提供了一個(gè)新的預(yù)訓(xùn)練思路:用句子表示預(yù)測(cè)token。同時(shí)也給我們展現(xiàn)出了它在候選召回上的巨大潛力,添加的額外cross-sequence transformer對(duì)速度的影響也不會(huì)太大。另外,作者只使用了wiki語(yǔ)料進(jìn)行預(yù)訓(xùn)練,如果有更多語(yǔ)料相信效果會(huì)更好。

目前源碼還未放出,希望開(kāi)源社區(qū)的富有大佬們?cè)缛沼?xùn)一個(gè)中文的Cross-Thought~

原文標(biāo)題:【EMNLP2020】超越MLM,微軟打造全新預(yù)訓(xùn)練任務(wù)

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6745

    瀏覽量

    107966
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4419

    瀏覽量

    67678

原文標(biāo)題:【EMNLP2020】超越MLM,微軟打造全新預(yù)訓(xùn)練任務(wù)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    廣電計(jì)量?jī)纱髣?chuàng)新工作室喜獲佳績(jī)

    建設(shè)對(duì)象,“張?zhí)m蘭女職工創(chuàng)新工作室”獲評(píng)市級(jí)“優(yōu)秀創(chuàng)新工作室”。這兩項(xiàng)榮譽(yù),是對(duì)廣電計(jì)量產(chǎn)業(yè)工人隊(duì)伍建設(shè)與技術(shù)創(chuàng)新領(lǐng)域長(zhǎng)期投入與實(shí)踐成效的積極肯定。
    的頭像 發(fā)表于 12-12 11:14 ?735次閱讀

    能電氣受邀出席2025海上光伏大會(huì)并發(fā)表精彩演講

    12月5日,由索比光伏網(wǎng)主辦的2025第三屆海上光伏大會(huì)在福州隆重召開(kāi)。大會(huì)以“聚焦痛點(diǎn)破局,共創(chuàng)海上光伏高質(zhì)量發(fā)展生態(tài)”為主題,眾多業(yè)內(nèi)翹楚齊聚一堂,能電氣受邀出席本次大會(huì)并發(fā)表精彩演講。
    的頭像 發(fā)表于 12-10 14:27 ?787次閱讀

    微軟 Ignite 2025 大會(huì):Splashtop 全面強(qiáng)化微軟環(huán)境的安全與效率

    近日舉辦的微軟Ignite2025大會(huì)上,Splashtop宣布其面向微軟生態(tài)的解決方案持續(xù)增長(zhǎng)。作為微軟智能安全協(xié)會(huì)(MISA)核心成員,Splashtop方案深度集成
    的頭像 發(fā)表于 11-28 16:57 ?1553次閱讀
    <b class='flag-5'>微軟</b> Ignite 2025 大會(huì):Splashtop 全面強(qiáng)化<b class='flag-5'>微軟</b>環(huán)境的安全與效率

    云知聲論文入選自然語(yǔ)言處理頂會(huì)EMNLP 2025

    近日,自然語(yǔ)言處理(NLP)領(lǐng)域國(guó)際權(quán)威會(huì)議 ——2025 年計(jì)算語(yǔ)言學(xué)與自然語(yǔ)言處理國(guó)際會(huì)議(EMNLP 2025)公布論文錄用結(jié)果,云知聲提交的《面向門(mén)診病歷生成的高質(zhì)量醫(yī)患對(duì)話合成技術(shù)
    的頭像 發(fā)表于 11-10 17:30 ?843次閱讀
    云知聲論文入選自然語(yǔ)言處理頂會(huì)<b class='flag-5'>EMNLP</b> 2025

    沐曦聯(lián)合香港科技大學(xué)登上AI頂會(huì)

    近日,沐曦PDE-AI Solution團(tuán)隊(duì)與香港科技大學(xué)合作,兩大人工智能頂級(jí)會(huì)議NeurIPS2025與EMNLP 2025發(fā)表重要研究成果,涵蓋大語(yǔ)言模型(LLM)的多樣化解
    的頭像 發(fā)表于 10-14 09:46 ?1593次閱讀

    機(jī)智云出席新的社會(huì)階層人士科技創(chuàng)新工作推進(jìn)會(huì)

    近日,由廣東省委統(tǒng)戰(zhàn)部、廣州市委統(tǒng)戰(zhàn)部指導(dǎo),廣州大學(xué)、廣東省新的社會(huì)階層人士聯(lián)合會(huì)、廣州市新的社會(huì)階層人士聯(lián)誼會(huì)聯(lián)合主辦的“新力建功·科創(chuàng)賦能”新的社會(huì)階層人士科技創(chuàng)新工作推進(jìn)會(huì)暨IEEE機(jī)電一體化與計(jì)算機(jī)技術(shù)工程國(guó)際學(xué)術(shù)會(huì)議廣州舉行。
    的頭像 發(fā)表于 09-04 15:31 ?724次閱讀

    華為徐直軍出席2025鴻蒙生態(tài)大會(huì)并發(fā)表主旨演講

    2025年8月30日,華為輪值董事長(zhǎng)徐直軍“新場(chǎng)景·新體驗(yàn)”鴻蒙生態(tài)大會(huì)2025發(fā)表了題為“在一起,讓鴻蒙更精彩”的主旨演講。
    的頭像 發(fā)表于 09-01 10:43 ?2581次閱讀

    深開(kāi)鴻與深信大共建“教師工程實(shí)踐與創(chuàng)新工作站”,共育開(kāi)源鴻蒙生態(tài)人才

    完成簽約。儀式,許志良副校長(zhǎng)代表深信大向深開(kāi)鴻授予“教師工程實(shí)踐與創(chuàng)新工作站”牌匾,標(biāo)志著校企合作進(jìn)入實(shí)質(zhì)推進(jìn)階段,為后續(xù)產(chǎn)學(xué)研深度融合與項(xiàng)目落地奠定了堅(jiān)實(shí)基礎(chǔ)。
    的頭像 發(fā)表于 08-27 16:26 ?1012次閱讀
    深開(kāi)鴻與深信大共建“教師工程實(shí)踐與創(chuàng)<b class='flag-5'>新工作</b>站”,共育開(kāi)源鴻蒙生態(tài)人才

    門(mén)型展架 創(chuàng)新工坊553閃光系統(tǒng) 商業(yè)計(jì)劃書(shū).rar

    *附件:門(mén)型展架 創(chuàng)新工坊553閃光系統(tǒng) 商業(yè)計(jì)劃書(shū).rar *附件:12.rar
    發(fā)表于 06-21 08:28

    EtherCAT轉(zhuǎn)CANopen網(wǎng)關(guān)與伺服器匯川組態(tài)軟件的配置步驟

    EtherCAT轉(zhuǎn)CANopen網(wǎng)關(guān)與伺服器匯川組態(tài)軟件的配置步驟 匯川組態(tài)軟件工業(yè)自動(dòng)化領(lǐng)域具有廣泛的應(yīng)用,該軟件能夠有效地實(shí)現(xiàn)EtherCAT轉(zhuǎn)CANopen網(wǎng)關(guān)與伺服器的集成配置
    的頭像 發(fā)表于 06-12 10:06 ?1349次閱讀
    EtherCAT轉(zhuǎn)CANopen網(wǎng)關(guān)與伺服器<b class='flag-5'>在</b>匯川組態(tài)軟件<b class='flag-5'>上</b>的配置步驟

    Arm攜手微軟共筑云計(jì)算和PC未來(lái)

    計(jì)算平臺(tái)并從中受益。無(wú)論是 Microsoft Azure 的云端還是 Windows on Arm PC 的邊緣側(cè),開(kāi)發(fā)者可以在任何地方加速其應(yīng)用和工作負(fù)載。
    的頭像 發(fā)表于 05-28 14:08 ?989次閱讀

    Arm與微軟合作加速邊緣設(shè)備的AI體驗(yàn)

    隨著人工智能 (AI) 成為當(dāng)今個(gè)人電腦 (PC) 和移動(dòng)設(shè)備使用體驗(yàn)(從聊天機(jī)器人到生產(chǎn)力提升)中不可或缺的一部分,這些設(shè)備對(duì) CPU 高效、可擴(kuò)展的推理需求也持續(xù)增長(zhǎng)。Arm 與微軟正攜手合作
    的頭像 發(fā)表于 05-28 13:54 ?869次閱讀

    微軟科技重磅發(fā)布兩款企業(yè)級(jí)AI應(yīng)用

    和智能體功能,旨在借助AI技術(shù)革新工作效率,助力企業(yè)的智能化轉(zhuǎn)型。新增功能涵蓋了定制化智能體、銷(xiāo)售自動(dòng)化、客戶服務(wù)集成和ERP創(chuàng)新等。
    的頭像 發(fā)表于 05-12 15:32 ?1225次閱讀

    晶科能源受邀擔(dān)任B20南非工業(yè)轉(zhuǎn)型與創(chuàng)新工作組聯(lián)席主席

    日前,作為唯一光伏企業(yè),晶科能源受邀擔(dān)任B20南非“工業(yè)轉(zhuǎn)型與創(chuàng)新工作組”的聯(lián)席主席。B20是G20的官方工商論壇,匯集了全球工商界塑造國(guó)際經(jīng)濟(jì)政策方面的建言獻(xiàn)策,以推動(dòng)可持續(xù)和包容性增長(zhǎng)。
    的頭像 發(fā)表于 04-21 17:44 ?858次閱讀

    如何在VScode使用MCUXpresso下載matter存儲(chǔ)庫(kù)?

    我想在 VScode 使用 MCUXpresso 下載 matter 存儲(chǔ)庫(kù)。 公司筆記本使用(WIn10) 我嘗試了 3 次以上,但仍然相同的位置失敗。 您能對(duì)此
    發(fā)表于 04-09 07:14