91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

介紹一種通用匹配對(duì)齊框架MAF

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:知識(shí)工場(chǎng) ? 作者:黃世洲 ? 2022-09-06 16:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

命名實(shí)體識(shí)別是NLP領(lǐng)域中的一項(xiàng)基礎(chǔ)任務(wù),在文本搜索、文本推薦、知識(shí)圖譜構(gòu)建等領(lǐng)域都起著至關(guān)重要的作用,一直是熱點(diǎn)研究方向之一。多模態(tài)命名實(shí)體識(shí)別在傳統(tǒng)的命名實(shí)體識(shí)別基礎(chǔ)上額外引入了圖像,可以為文本補(bǔ)充語(yǔ)義信息來(lái)進(jìn)行消岐,近些年來(lái)受到人們廣泛的關(guān)注。

盡管當(dāng)前的多模態(tài)命名實(shí)體識(shí)別方法取得了成功,但仍然存在著兩個(gè)問(wèn)題:(1)當(dāng)前大部分方法基于注意力機(jī)制來(lái)進(jìn)行文本和圖像間的交互,但由于不同模態(tài)的表示來(lái)自于不同的編碼器,想要捕捉文本中token和圖像中區(qū)域之間的關(guān)系是困難的。如下圖所示,句子中的‘Rob’應(yīng)該和圖像中存在貓的區(qū)域(V5,V6,V9等)有著較高的相似度,但由于文本和圖像的表示并不一致,在通過(guò)點(diǎn)積等形式計(jì)算相似度時(shí),‘Rob’可能會(huì)和其它區(qū)域有著較高的相似度得分。因此,表示的不一致會(huì)導(dǎo)致模態(tài)之間難以建立起較好的關(guān)系。

7c7b002e-2d86-11ed-ba43-dac502259ad0.png

(2)當(dāng)前的方法認(rèn)為文本與其隨附的圖像是匹配的,并且可以幫助識(shí)別文本中的命名實(shí)體。然而,并不是所有的文本和圖像都是匹配的,模型考慮這種不匹配的圖像將會(huì)做出錯(cuò)誤的預(yù)測(cè)。如下圖所示,圖片中沒(méi)有任何與命名實(shí)體“Siri”相關(guān)的信息,如果模型考慮這張不匹配的圖像,便會(huì)受圖中“人物”的影響將“Siri”預(yù)測(cè)為PER(人)。而在只有文本的情況下,預(yù)訓(xùn)練模型(BERT等)通過(guò)預(yù)訓(xùn)練任務(wù)中學(xué)到的知識(shí)可以將“Siri”的類(lèi)型預(yù)測(cè)為MISC(雜項(xiàng))。

為了解決上述存在的問(wèn)題,本文提出了MAF,一種通用匹配對(duì)齊框架(General Matching and Alignment Framework),將文本和圖像的表示進(jìn)行對(duì)齊并通過(guò)圖文匹配的概率過(guò)濾圖像信息 。由于該框架中的模塊是插件式的,其可以很容易地被拓展到其它多模態(tài)任務(wù)上。

本文研究成果已被WSDM2022接收,

7cc4ec16-2d86-11ed-ba43-dac502259ad0.png7ce6e5e6-2d86-11ed-ba43-dac502259ad0.png

整體框架

本文框架如下圖所示,由5個(gè)主要部分組成:

Input Representations

將原始的文本輸入轉(zhuǎn)為token序列的表示以及文本整體的表示,將原始的圖像輸入轉(zhuǎn)為圖像區(qū)域的表示以及圖像整體的表示。

Cross-Modal Alignment Module

接收文本整體的表示和圖像整體的表示作為輸入,通過(guò)對(duì)比學(xué)習(xí)將文本和圖像的表示變得更為一致。

Cross-Modal Interaction Module

接收token序列的表示以及圖像區(qū)域的表示作為輸入,使用注意力機(jī)制建立起文本token和圖像區(qū)域之間的聯(lián)系得到文本增強(qiáng)后的圖像的表示。

Cross-Modal Matching Module

接收文本序列的表示和文本增強(qiáng)后的圖像的表示作為輸入,用于判斷文本和圖像匹配的概率,并用輸出的概率對(duì)圖像信息進(jìn)行過(guò)濾。

Cross-Modal Fusion Module

將文本token序列的表示和最終圖像的表示結(jié)合在一起輸入到CRF層進(jìn)行預(yù)測(cè)。

7cf10116-2d86-11ed-ba43-dac502259ad0.png7ce6e5e6-2d86-11ed-ba43-dac502259ad0.png

主要部分

Input Representations

pYYBAGMXAjyAfd_9AAIrPNeQE1s850.jpg

7d0aae22-2d86-11ed-ba43-dac502259ad0.png

pYYBAGMXAmiAViCiAAF8GHZxccw723.jpg
poYBAGMXAm-AZaj2AALcEY_MaGs226.jpg

7d2afa56-2d86-11ed-ba43-dac502259ad0.png

poYBAGMXAoyAAY87AAGwW_qDavA106.jpg

實(shí)驗(yàn)

主要結(jié)果

本文的方法在Twitter-2015和Twitter-2017數(shù)據(jù)集上效果均優(yōu)于之前的方法。

7d4b855a-2d86-11ed-ba43-dac502259ad0.png

運(yùn)行時(shí)間

本文的方法相比于之前的方法除了有著模態(tài)之間交互的模塊(本文中為CI),還添加了對(duì)齊模態(tài)表示的CA以及判斷圖文是否匹配的CM,這可能會(huì)導(dǎo)致訓(xùn)練成本以及預(yù)測(cè)成本增加。但本文簡(jiǎn)化了模態(tài)之間交互的過(guò)程,因此整體訓(xùn)練和預(yù)測(cè)時(shí)間以及模型大小均由于之前的SOTA方法。

7d71210c-2d86-11ed-ba43-dac502259ad0.png

消融實(shí)驗(yàn)

本文進(jìn)行了消融實(shí)驗(yàn),驗(yàn)證了CA和CM的有效性。

7d8a1194-2d86-11ed-ba43-dac502259ad0.png

樣例分析

本文還進(jìn)行了樣例分析來(lái)更加直觀地展示CA和CM的有效性。

7da422a0-2d86-11ed-ba43-dac502259ad0.png



審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3955

    瀏覽量

    142717
  • MLP
    MLP
    +關(guān)注

    關(guān)注

    0

    文章

    57

    瀏覽量

    4995

原文標(biāo)題:用于多模態(tài)命名實(shí)體識(shí)別的通用匹配對(duì)齊框架

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    一種無(wú)OS的MCU實(shí)用軟件框架

    介紹一種無(wú)OS的MCU實(shí)用軟件框架,包括任務(wù)輪詢(xún)管理,命令管理器、低功耗管理、環(huán)形緩沖區(qū)等實(shí)用模塊。系統(tǒng)中廣泛利用自定義段技術(shù)減少各個(gè)模塊間的耦合關(guān)系,大大提供程序的可維護(hù)性。 主要功能 支持模塊
    發(fā)表于 01-08 06:58

    用于窄帶匹配高速射頻ADC的全新方法

    本期,為大家?guī)?lái)的是《用于窄帶匹配高速射頻 ADC 的全新方法》,介紹一種用于窄帶匹配高速射頻 ADC 的全新方法,以解決高中間頻率系統(tǒng)中 ADC 前端窄帶
    的頭像 發(fā)表于 01-04 15:56 ?6362次閱讀
    用于窄帶<b class='flag-5'>匹配</b>高速射頻ADC的全新方法

    頻譜分析儀與電壓探頭匹配指南

    如何實(shí)現(xiàn)頻譜分析儀與電壓探頭的精準(zhǔn)匹配?核心邏輯可概括為“三對(duì)齊一適配”——參數(shù)對(duì)齊、接口對(duì)齊、設(shè)置對(duì)齊+場(chǎng)景適配,最終目標(biāo)是規(guī)避信號(hào)反射、
    的頭像 發(fā)表于 12-29 14:51 ?294次閱讀
    頻譜分析儀與電壓探頭<b class='flag-5'>匹配</b>指南

    TDK MAF1005P型噪聲抑制濾波器:設(shè)計(jì)利器的深度剖析

    TDK MAF1005P型噪聲抑制濾波器:設(shè)計(jì)利器的深度剖析 在電子設(shè)備的設(shè)計(jì)中,噪聲抑制直是工程師們關(guān)注的重點(diǎn)。TDK的MAF系列噪聲抑制濾波器,特別是MAF1005P型,為我們提
    的頭像 發(fā)表于 12-26 14:40 ?214次閱讀

    TDK MAF1005FR音頻線路噪聲抑制濾波器:設(shè)計(jì)工程師的理想之選

    TDK MAF1005FR音頻線路噪聲抑制濾波器:設(shè)計(jì)工程師的理想之選 電子工程師在設(shè)計(jì)音頻線路時(shí),常常需要應(yīng)對(duì)噪聲干擾這棘手問(wèn)題。TDK的MAF系列噪聲抑制濾波器,特別是MAF10
    的頭像 發(fā)表于 12-26 09:35 ?422次閱讀

    摩爾線程新代大語(yǔ)言模型對(duì)齊框架URPO入選AAAI 2026

    近日,摩爾線程在人工智能前沿領(lǐng)域取得重要突破,其提出的新代大語(yǔ)言模型對(duì)齊框架——URPO統(tǒng)獎(jiǎng)勵(lì)與策略?xún)?yōu)化,相關(guān)研究論文已被人工智能領(lǐng)域的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議AAAI 2026收錄。這
    的頭像 發(fā)表于 11-17 16:03 ?501次閱讀
    摩爾線程新<b class='flag-5'>一</b>代大語(yǔ)言模型<b class='flag-5'>對(duì)齊</b><b class='flag-5'>框架</b>URPO入選AAAI 2026

    一種適用于動(dòng)態(tài)環(huán)境的自適應(yīng)先驗(yàn)場(chǎng)景-對(duì)象SLAM框架

    由于傳統(tǒng)視覺(jué)SLAM在動(dòng)態(tài)場(chǎng)景中容易會(huì)出現(xiàn)嚴(yán)重的定位漂移,本文提出了一種新穎的基于場(chǎng)景-對(duì)象的可靠性評(píng)估框架,該框架通過(guò)當(dāng)前幀質(zhì)量指標(biāo)以及相對(duì)于可靠參考幀的場(chǎng)景變化,全面評(píng)估SLAM的穩(wěn)定性。
    的頭像 發(fā)表于 08-19 14:17 ?883次閱讀
    <b class='flag-5'>一種</b>適用于動(dòng)態(tài)環(huán)境的自適應(yīng)先驗(yàn)場(chǎng)景-對(duì)象SLAM<b class='flag-5'>框架</b>

    介紹一種直流過(guò)壓保護(hù)電路

    本篇博文將詳細(xì)分析一種典型的過(guò)壓保護(hù)電路,探討其工作原理、元件選擇及實(shí)際應(yīng)用,幫助大家深入理解如何保護(hù)電子設(shè)備。
    的頭像 發(fā)表于 07-05 11:06 ?1468次閱讀
    <b class='flag-5'>介紹</b><b class='flag-5'>一種</b>直流過(guò)壓保護(hù)電路

    dhkey chcks不匹配怎么解決?

    \" 。 這是個(gè)隨機(jī)問(wèn)題,在配對(duì)和解除配對(duì)時(shí)觀察到。 在執(zhí)行此操作時(shí),我們觀察到在迭代 10 次配對(duì)和解除配對(duì)后,出現(xiàn)了密鑰不
    發(fā)表于 07-01 06:36

    基于LockAI視覺(jué)識(shí)別模塊:C++多模板匹配

    多模板匹配一種在圖像中同時(shí)尋找多個(gè)模板的技術(shù)。通過(guò)對(duì)每個(gè)模板逐進(jìn)行匹配,找到與輸入圖像最相似的區(qū)域,并標(biāo)記出匹配度最高的結(jié)果。本實(shí)驗(yàn)提供
    的頭像 發(fā)表于 05-14 14:37 ?1627次閱讀
    基于LockAI視覺(jué)識(shí)別模塊:C++多模板<b class='flag-5'>匹配</b>

    Allegro Skill布局功能--器件絲印過(guò)孔對(duì)齊介紹與演示

    Allegro系統(tǒng)雖然提供了基本的元件對(duì)齊功能,但其適用范圍較為有限。相比之下,F(xiàn)anyskill 的“對(duì)齊”命令在操作體驗(yàn)和功能性上更具優(yōu)勢(shì):其界面設(shè)計(jì)更加直觀易用,并支持多種元素的對(duì)齊操作,包括
    發(fā)表于 05-14 08:59 ?3837次閱讀
    Allegro Skill布局功能--器件絲印過(guò)孔<b class='flag-5'>對(duì)齊</b><b class='flag-5'>介紹</b>與演示

    一種新型激光雷達(dá)慣性視覺(jué)里程計(jì)系統(tǒng)介紹

    針對(duì)具有挑戰(zhàn)性的光照條件和惡劣環(huán)境,本文提出了LIR-LIVO,這是一種輕量級(jí)且穩(wěn)健的激光雷達(dá)-慣性-視覺(jué)里程計(jì)系統(tǒng)。通過(guò)采用諸如利用深度與激光雷達(dá)點(diǎn)云關(guān)聯(lián)實(shí)現(xiàn)特征的均勻深度分布等先進(jìn)技術(shù),以及利用
    的頭像 發(fā)表于 04-28 11:18 ?1103次閱讀
    <b class='flag-5'>一種</b>新型激光雷達(dá)慣性視覺(jué)里程計(jì)系統(tǒng)<b class='flag-5'>介紹</b>

    一種實(shí)時(shí)多線程VSLAM框架vS-Graphs介紹

    針對(duì)現(xiàn)有VSLAM系統(tǒng)語(yǔ)義表達(dá)不足、地圖可解釋性差的問(wèn)題,本文提出vS-Graphs,一種實(shí)時(shí)多線程VSLAM框架。該方案顯著提升了重建地圖的語(yǔ)義豐富度、可解釋性及定位精度。實(shí)驗(yàn)表明
    的頭像 發(fā)表于 04-19 14:07 ?1013次閱讀
    <b class='flag-5'>一種</b>實(shí)時(shí)多線程VSLAM<b class='flag-5'>框架</b>vS-Graphs<b class='flag-5'>介紹</b>

    PCB布局太亂? Altium Designer這個(gè)快捷鍵幫你對(duì)齊全場(chǎng)

    在做PCB設(shè)計(jì)的時(shí)候,你是否也遇到過(guò)這種情況: 器件擺好但總感覺(jué)歪歪扭扭? 有些元件間距不致,看著難受? 想對(duì)齊個(gè)個(gè)拖動(dòng),累得不行? 別急!今天教你招? Altium Desi
    的頭像 發(fā)表于 04-14 09:09 ?4851次閱讀
    PCB布局太亂? Altium Designer這個(gè)快捷鍵幫你<b class='flag-5'>一</b>秒<b class='flag-5'>對(duì)齊</b>全場(chǎng)

    一種多模態(tài)駕駛場(chǎng)景生成框架UMGen介紹

    端到端自動(dòng)駕駛技術(shù)的快速發(fā)展對(duì)閉環(huán)仿真器提出了迫切需求,而生成式模型為其提供了一種有效的技術(shù)架構(gòu)。然而,現(xiàn)有的駕駛場(chǎng)景生成方法大多側(cè)重于圖像模態(tài),忽略了其他關(guān)鍵模態(tài)的建模,如地圖信息、智能交通參與者等,從而限制了其在真實(shí)駕駛場(chǎng)景中的適用性。
    的頭像 發(fā)表于 03-24 15:57 ?1693次閱讀
    <b class='flag-5'>一種</b>多模態(tài)駕駛場(chǎng)景生成<b class='flag-5'>框架</b>UMGen<b class='flag-5'>介紹</b>