91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在視覺語言表示學(xué)習(xí)中建立編碼器間的橋梁

深度學(xué)習(xí)自然語言處理 ? 來源:賽爾實驗室 ? 2023-04-14 17:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

0. Take-away messages

提出了一個簡單有效的視覺語言模型架構(gòu),BridgeTower,通過在頂層單模態(tài)層和每個跨模態(tài)層之間建立橋梁,成功地引入了不同語義層次的視覺和文本表示,從而提高了跨模態(tài)編碼器中注意力頭的多樣性,并在各種任務(wù)上實現(xiàn)了突出的性能改進。

公平的評估設(shè)置下,與Two-Tower架構(gòu)的METER模型相比,BridgeTower顯著地提高了模型的多模態(tài)表示能力。

使用400萬張圖片進行視覺語言預(yù)訓(xùn)練,BridgeTower在各種視覺語言下游任務(wù)上取得了十分強大的性能,擊敗了許多用更多數(shù)據(jù)和參數(shù)進行預(yù)訓(xùn)練的強大模型。

BridgeTower可以適用于不同的視覺、文本或跨模態(tài)編碼器。

1. 背景與動機

139ba1b0-daa3-11ed-bfe3-dac502259ad0.png

視覺語言任務(wù)示例

圖源:12-in-1: Multi-Task Vision and Language Representation Learning

視覺語言研究的目標(biāo),是訓(xùn)練一個能夠理解圖像和文本的智能AI系統(tǒng)。上圖展示了一些流行的視覺語言任務(wù)。視覺問答是其中最著名的任務(wù)之一,它需要根據(jù)輸入圖像來回答和圖片相關(guān)的問題。

各類視覺語言模型

自2019年以來,在大規(guī)模圖像-文本對的自監(jiān)督預(yù)訓(xùn)練的幫助下,基于Transformer的視覺語言模型取得了顯著的進展。其中,具有雙塔結(jié)構(gòu)的視覺語言 (VL) 模型在視覺語言表示學(xué)習(xí)中占主導(dǎo)地位?;诓煌奈谋竞鸵曈X編碼器,人們提出了各種模型架構(gòu)和預(yù)訓(xùn)練目標(biāo)。從模型架構(gòu)的角度來看,近期大多數(shù)的VL工作,可以看作是由三個模塊組成的雙塔架構(gòu),即文本編碼器、視覺編碼器,以及在它們之上的跨模態(tài)融合模塊。不同的VL模型在這三個模塊的設(shè)計上有所不同。

13ab51aa-daa3-11ed-bfe3-dac502259ad0.jpg

視覺語言模型架構(gòu)簡述

圖(a)-(d)是目前的四類視覺語言模型。圖(e)簡要說明了BridgeTower的模型結(jié)構(gòu)。VE、TE和CE分別是視覺編碼器、文本編碼器和跨模態(tài)編碼器的簡稱。每個矩形的高度代表其相對計算成本。本圖受到了ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision的啟發(fā)。

目前的VL模型要么使用輕量級的單模態(tài)編碼器,并學(xué)習(xí)在深度跨模態(tài)編碼器中同時提取、對齊和融合兩種模態(tài),要么將預(yù)訓(xùn)練的深層單模態(tài)編碼器的最后一層單模態(tài)表示,送入頂部的跨模態(tài)編碼器中。這兩種方法都有可能限制視覺-語言表示的學(xué)習(xí),并進一步限制模型的性能。

13b06ca8-daa3-11ed-bfe3-dac502259ad0.png

動機

如果我們深入雙塔結(jié)構(gòu)的單模態(tài)塔 (編碼器) ,例如METER模型。我們可以發(fā)現(xiàn)他們只將最后一層的單模態(tài)特征直接送入頂部的跨模態(tài)融合模塊,忽略了深層單模態(tài)塔的不同層的語義信息。我們自然地想到,能否在不同層的預(yù)訓(xùn)練單模態(tài)塔和跨模態(tài)融合模塊之間建立起橋梁,以充分利用多層單模態(tài)特征?

13b7d682-daa3-11ed-bfe3-dac502259ad0.gif

架構(gòu)對比

因此,我們提出了BridgeTower架構(gòu)。與雙塔架構(gòu)不同,BridgeTower在跨模態(tài)融合模塊和單模態(tài)編碼器之間建立起了多座橋梁。二者的主要區(qū)別在于,雙塔結(jié)構(gòu)只融合最后一層的特征,而BridgeTower則逐漸融合單模態(tài)編碼器頂部的多層特征。

2. 模型架構(gòu)

13d7942c-daa3-11ed-bfe3-dac502259ad0.jpg

模型架構(gòu)

這里我們展示了BridgeTower的詳細(xì)架構(gòu)圖。具體而言,我們采用12層的RoBERTa-base和12層的CLIP-ViT-B作為單模態(tài)編碼器??缒B(tài)編碼器為6層,每一層都添加了BridgeLayer來與單模態(tài)編碼器的頂部6層建立連接。

這使得預(yù)訓(xùn)練單模態(tài)編碼器中的不同語義層次的視覺和文本表示,通過BridgeLayer與跨模態(tài)表示進行融合,從而促進了跨模態(tài)編碼器中,高效的,自下而上的跨模態(tài)對齊與融合。需要注意的是,BridgeTower架構(gòu)適用于不同的視覺、文本或跨模態(tài)編碼器。

3. 設(shè)計選擇

我們對BridgeTower的不同設(shè)計選擇進行了廣泛的實驗。

3.1 BridgeLayer的定義

13f5e4fe-daa3-11ed-bfe3-dac502259ad0.gif

bridge-layer

首先是BridgeLayer的定義,也就是單模態(tài)信息與跨模態(tài)信息如何在BridgeLayer中融合。

14220b2e-daa3-11ed-bfe3-dac502259ad0.png

上表展示了不同定義的BridgeLayer的參數(shù)量和其在VQAv2和Flickr30K數(shù)據(jù)集上的性能。RSUM表示圖文檢索任務(wù)的召回度量之和。

表示前一層輸出的跨模態(tài)表示。

表示相應(yīng)的單模態(tài)表示。我們省略了每一行中使用的 。有些出乎意料但又合乎情理的是,第一行中的 使用最小的參數(shù)量得到了最好的結(jié)果。

3.2 Cross-Modal Layer的數(shù)量

14367fd2-daa3-11ed-bfe3-dac502259ad0.gif

cross-modal-layer

接著我們基于12層的文本和視覺編碼器,研究不同數(shù)量的跨模態(tài)層對性能的影響。

144e23b2-daa3-11ed-bfe3-dac502259ad0.png

表示跨模態(tài)層的數(shù)量,并且BridgeTower使用Top-的單模態(tài)表示作為跨模態(tài)層的輸入。我們在兩個數(shù)據(jù)集上比較不同下,METER和BridgeTower的性能情況,我們發(fā)現(xiàn)更多的跨模態(tài)層并不能不斷提高性能。這可能是由于

更多的跨模態(tài)層需要更多的訓(xùn)練數(shù)據(jù)。

頂層的單模態(tài)表示有利于跨模態(tài)對齊和融合,而底層的單模態(tài)表示可能不利于,甚至是有害于跨模態(tài)表示的學(xué)習(xí)。雖然METER和BridgeTower之間唯一的區(qū)別是BridgeLayers,但BridgeTower在不同數(shù)量的跨模態(tài)層中始終獲得了一致的性能提升。

3.3 BridgeLayer的數(shù)量

1471f74c-daa3-11ed-bfe3-dac502259ad0.gif

internal-external

最后是BridgeLayer的數(shù)量,也就是在使用相同數(shù)量的跨模態(tài)層時,應(yīng)該加入多少個BridgeLayer。

14930e1e-daa3-11ed-bfe3-dac502259ad0.png

為了充分比較BridgeTower和雙塔結(jié)構(gòu)的METER模型,我們試圖建立一個從BridgeTower到Two-Tower逐漸變化的情景。為了進行公平的比較,我們使用共計6個跨模態(tài)層,并將它們分為外部 (External) 跨模態(tài)層和內(nèi)部 (Internal) 跨模態(tài)層。二者的區(qū)別在于內(nèi)部跨模態(tài)層具有BridgeLayer,而外部跨模態(tài)層沒有。

第一行顯示了6個跨模態(tài)層均為內(nèi)部層的BridgeTower的結(jié)果。然后,我們逐漸增加外部層,減少內(nèi)部層。我們發(fā)現(xiàn)在兩個數(shù)據(jù)集上的性能都出現(xiàn)了穩(wěn)定的下降。

最后一行顯示了雙塔結(jié)構(gòu)的METER模型的性能。這表明BridgeTower通過BridgeLayers,將單模態(tài)編碼器的頂層與跨模態(tài)編碼器的每一層連接起來,可以顯著提高性能。

3.4 單模態(tài)編碼器

14a3b494-daa3-11ed-bfe3-dac502259ad0.png

最后我們嘗試了不同的視覺和文本編碼器作為BridgeTower的預(yù)訓(xùn)練單模態(tài)編碼器,并直接對下游任務(wù)進行微調(diào),以進一步研究BridgeLayers帶來的影響。我們發(fā)現(xiàn),對于不同的預(yù)訓(xùn)練視覺和文本編碼器,BridgeTower的性能都持續(xù)顯著地優(yōu)于METER的性能。

4. 實驗效果

14c48df4-daa3-11ed-bfe3-dac502259ad0.png

我們基于公共圖文對數(shù)據(jù)集對BridgeTower進行預(yù)訓(xùn)練,如上表所示,大約共計400萬張獨立圖片,900萬對圖文對。我們使用通用的掩碼語言建模 (Masked Language Modeling, MLM) 和圖文匹配 (Image-Text Matching, ITM) 任務(wù)作為預(yù)訓(xùn)練任務(wù)。所有的預(yù)訓(xùn)練設(shè)置與預(yù)訓(xùn)練參數(shù)都與METER一致,以提供METER和BridgeTower之間的公平比較

14d089a6-daa3-11ed-bfe3-dac502259ad0.png

上圖展示了BridgeTower模型在視覺問答 (Visual Question Answering) 的VQAv2數(shù)據(jù)集上的Base和Large兩種Size的模型性能。在視覺-語言預(yù)訓(xùn)練中,我們的Base模型只使用了400萬張圖片進行預(yù)訓(xùn)練,就在VQAv2基準(zhǔn)上取得了令人印象深刻的表現(xiàn)。

而且,METER和BridgeTower使用相同的文本編碼器、視覺編碼器和跨模態(tài)融合機制。只需將METER模型的Two-Tower架構(gòu)改為BridgeTower架構(gòu),在相同的預(yù)訓(xùn)練數(shù)據(jù)和幾乎可以忽略不計的額外參數(shù)和計算成本下,VQAv2數(shù)據(jù)集的Test-Standard性能就可以輕松提高1.09。BridgeTower的Large模型在VQAv2數(shù)據(jù)集上更是取得81.15的Test-Standard性能。

值得注意的是,BridgeTower超過了許多使用10倍甚至100倍的圖像進行VL預(yù)訓(xùn)練的Base模型與Large模型,擊敗了許多用更多數(shù)據(jù)和參數(shù)進行預(yù)訓(xùn)練的強大模型。

14e5dbda-daa3-11ed-bfe3-dac502259ad0.png

類似的趨勢也出現(xiàn)在視覺蘊含 (Visual Entailment) 和圖像-文本檢索 (Image-Text Retrieval) 任務(wù)中。特別是在Flickr30K數(shù)據(jù)集上,BridgeTower的Base模型帶來了5.9點收益。

5. 可視化結(jié)果

為了進一步研究性能提高的原因,我們通過分析每個跨模態(tài)層中,不同注意力頭的注意力權(quán)重分布之間的KL散度,來比較雙塔架構(gòu)的METER模型和我們的BridgeTower架構(gòu)。

KL散度可以被看作是注意力頭的多樣性。較高或較低的KL散度表示不同的注意力頭之間,關(guān)注的token更加不同或更加相似。

14f95b60-daa3-11ed-bfe3-dac502259ad0.jpg

圖中的小點代表不同注意力頭的注意力分布間的KL散度,大點表示同層KL散度的均值。上圖對比了METER和BridgeTower模型的跨模態(tài)編碼器中,視覺/文本部分的自我/交叉注意力層之間的區(qū)別。

上圖展示了兩個模型的跨模態(tài)編碼器的視覺和文本部分的自注意力以及交叉注意力的注意力頭的多樣性。圖中存在兩個明顯的趨勢:

對于BridgeTower來說,注意力頭的多樣性隨著層的深入而逐漸變小,但對于METER來說,注意力頭的多樣性隨著層的深入而逐漸變大,然后變小。

BridgeTower每層的注意力頭的多樣性明顯大于METER,尤其是第1層至第5層。

因此,對于跨模態(tài)編碼器的視覺和文本部分的自注意力以及交叉注意力的不同注意力頭,與METER相比,BridgeTower能夠關(guān)注到更多不同的標(biāo)記 (token)。

我們將此歸功于我們提出的BridgeLayers,它將單模態(tài)編碼器的頂層與跨模態(tài)編碼器的每一層連接起來。不同語義層次的視覺和文本表示通過BridgeLayer與跨模態(tài)表示進行融合,從而促進了跨模態(tài)編碼器每一層的更有效更豐富的跨模態(tài)對齊和融合。

6. 結(jié)論

在本文中,我們提出了BridgeTower,它引入了多個BridgeLayer,在單模態(tài)編碼器的頂層和跨模態(tài)編碼器的每一層之間建立連接。這使得預(yù)訓(xùn)練單模態(tài)編碼器中的不同語義層次的視覺和文本表示,通過BridgeLayer與跨模態(tài)表示進行融合,從而促進了跨模態(tài)編碼器中,高效的,自下而上的跨模態(tài)對齊與融合。

使用400萬張圖像進行視覺語言預(yù)訓(xùn)練,BridgeTower在各種下游的視覺-語言任務(wù)中取得了非常強大的性能。特別是在VQAv2數(shù)據(jù)集上,BridgeTower達(dá)到了78.73%的準(zhǔn)確率,在相同的預(yù)訓(xùn)練數(shù)據(jù)和幾乎可以忽略不計的額外參數(shù)和計算成本下,比Two-Tower架構(gòu)的METER模型高出了1.09%的準(zhǔn)確率。值得注意的是,當(dāng)進一步擴展該模型時,BridgeTower達(dá)到了81.15%的準(zhǔn)確率,甚至超過了一些在更大數(shù)量級的數(shù)據(jù)集上使用更多參數(shù)進行預(yù)訓(xùn)練的強大模型。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3956

    瀏覽量

    142723

原文標(biāo)題:AAAI2023 | BridgeTower: 在視覺語言表示學(xué)習(xí)中建立編碼器間的橋梁

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    編碼器:解鎖未來科技的“雙核密碼”

    邊界,成為行業(yè)升級的“隱形引擎”。 雙編碼器:1+1>2的協(xié)同革命 傳統(tǒng)單編碼器如同“單線程大腦”,面對復(fù)雜任務(wù)時,往往需要在速度與精度艱難取舍。而雙
    的頭像 發(fā)表于 03-05 08:39 ?338次閱讀
    雙<b class='flag-5'>編碼器</b>:解鎖未來科技的“雙核密碼”

    解碼未來:編碼器信號轉(zhuǎn)換模塊——工業(yè)智能化的“數(shù)字橋梁

    的傳感數(shù)據(jù)實現(xiàn)統(tǒng)一處理? 編碼器信號轉(zhuǎn)換模塊 ,正是破解這一難題的“數(shù)字鑰匙”,它以高效、精準(zhǔn)、靈活的信號轉(zhuǎn)換能力,為工業(yè)場景搭建起一座跨越協(xié)議鴻溝的橋梁。 打破協(xié)議壁壘,讓設(shè)備“自由對話” 工業(yè)現(xiàn)場
    的頭像 發(fā)表于 02-06 08:46 ?128次閱讀
    解碼未來:<b class='flag-5'>編碼器</b>信號轉(zhuǎn)換模塊——工業(yè)智能化的“數(shù)字<b class='flag-5'>橋梁</b>”

    如何提高絕對值編碼器惡劣環(huán)境下的精度穩(wěn)定性?

    如何提高絕對值編碼器惡劣環(huán)境下的精度穩(wěn)定性?根據(jù)具體的惡劣環(huán)境條件選擇相應(yīng)的編碼器類型。例如,高溫環(huán)境,可選擇具有耐高溫材料和散熱設(shè)計
    的頭像 發(fā)表于 10-13 13:58 ?462次閱讀
    如何提高絕對值<b class='flag-5'>編碼器</b><b class='flag-5'>在</b>惡劣環(huán)境下的精度穩(wěn)定性?

    國產(chǎn)編碼器人形機器人領(lǐng)域的進展

    電子發(fā)燒友網(wǎng)綜合報道?編碼器是測量旋轉(zhuǎn)角度、位移及速度的傳感,作為伺服系統(tǒng)的核心部件,人形機器人領(lǐng)域,其數(shù)據(jù)反饋對實現(xiàn)機器人運動的精密控制與定位至關(guān)重要。 ? 編碼器種類豐富,按技
    的頭像 發(fā)表于 09-24 09:41 ?1484次閱讀

    Bourns發(fā)布全新增量式微型編碼器

    Bourns 推出 PEC04 系列 4 mm 增量式微型編碼器、PEC05 PEC05 系列 5 mm 增量式微型編碼器,以及 PEC06 型號 6 mm 增量式微型編碼器。Bourns 全新微型
    的頭像 發(fā)表于 09-22 16:05 ?1313次閱讀

    重載型編碼器鋼廠天車定位系統(tǒng)的成功應(yīng)用案例

    重載編碼器鋼廠成功應(yīng)用案例: 某特鋼企業(yè) 50 噸天車上部署雷恩增量型重載編碼器的組合系統(tǒng): 功能實現(xiàn):編碼器信號通過 SM1231 模擬量模塊接入 PLC,結(jié)合防搖擺算法(基于模糊
    的頭像 發(fā)表于 09-08 14:29 ?1265次閱讀
    重載型<b class='flag-5'>編碼器</b><b class='flag-5'>在</b>鋼廠天車定位系統(tǒng)<b class='flag-5'>中</b>的成功應(yīng)用案例

    磁性編碼器的抗污染、抗沖擊特性及其惡劣環(huán)境應(yīng)用

    磁性編碼器IC作為現(xiàn)代工業(yè)自動化系統(tǒng)的關(guān)鍵組件,其性能直接影響到設(shè)備的精度和可靠性。特別是惡劣環(huán)境下,如高粉塵、強振動、極端溫度等條件下,磁性編碼器的抗污染和抗沖擊特性顯得尤為重要
    的頭像 發(fā)表于 08-13 16:48 ?765次閱讀

    絕對值編碼器與增量式編碼器相比有哪些優(yōu)勢?

    絕對值編碼器與增量式編碼器相比有哪些優(yōu)勢?核心功能:斷電后位置信息不丟失,絕對值編碼器:通過機械結(jié)構(gòu)或電子存儲(如電池備份),能實時輸出當(dāng)前位置的唯一絕對值編碼(如二進制、格雷碼)。無
    的頭像 發(fā)表于 08-11 13:57 ?1666次閱讀
    絕對值<b class='flag-5'>編碼器</b>與增量式<b class='flag-5'>編碼器</b>相比有哪些優(yōu)勢?

    增量型編碼器與絕對值型編碼器怎么選擇?

    選擇增量型編碼器與絕對值型編碼器時,需要考慮多個因素,包括應(yīng)用需求、成本、精度、可靠性以及環(huán)境適應(yīng)性等。以下是對兩種編碼器的詳細(xì)比較及選擇建議: 一、增量型
    的頭像 發(fā)表于 07-10 10:34 ?1401次閱讀

    Transformer架構(gòu)編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據(jù)整個序列捕獲每個to
    的頭像 發(fā)表于 06-10 14:27 ?1071次閱讀
    Transformer架構(gòu)<b class='flag-5'>中</b><b class='flag-5'>編碼器</b>的工作流程

    磁性編碼器非線性誤差補償及重型機床高精度伺服控制應(yīng)用

    重型機床加工精度面臨磁性編碼器非線性誤差挑戰(zhàn),誤差來源包括磁柵刻劃誤差、磁頭偏心及溫度漂移。創(chuàng)新補償技術(shù)如雙讀頭差分、智能算法及雙反饋系統(tǒng),將定位誤差控制微米級,推動國產(chǎn)編碼器技術(shù)從跟跑到并跑。
    的頭像 發(fā)表于 05-16 17:29 ?1314次閱讀

    磁旋轉(zhuǎn)編碼器永磁同步電機位置測量的應(yīng)用(可下載)

    一、概述與直流電機相比,永磁同步電機具有體積小、 效率高、無需維護等優(yōu)點,某些應(yīng)用 場景,由位置傳感精度引起的轉(zhuǎn)矩波動應(yīng)限制 1%以內(nèi),這就要求電機位置傳感
    發(fā)表于 04-09 13:37 ?0次下載

    數(shù)字電路—編碼器

    編碼器:用二進制代碼表示文字、符號或者數(shù)碼等特定對象的過程,稱為編碼。實現(xiàn)編碼的邏輯電路,稱為編碼器。
    發(fā)表于 03-26 11:08

    編碼器與無軸承編碼器,到底如何選擇?

    選擇軸編碼器與無軸承編碼器時,需要根據(jù)具體的應(yīng)用場景、性能需求、環(huán)境條件和成本預(yù)算等因素進行綜合考慮。以下是對兩者的詳細(xì)對比,以幫助做出合適的選擇: 一、工作原理與結(jié)構(gòu) 1. 軸編碼器
    的頭像 發(fā)表于 03-11 15:33 ?1338次閱讀
    軸<b class='flag-5'>編碼器</b>與無軸承<b class='flag-5'>編碼器</b>,到底如何選擇?

    伺服電機編碼器怎么選型

    伺服電機編碼器的選型是一個綜合性的過程,需要考慮多個因素以確保所選編碼器能夠滿足系統(tǒng)的性能要求。以下是一些關(guān)鍵的選型步驟和考慮因素: 一、明確應(yīng)用需求 首先,需要明確伺服電機編碼器的應(yīng)用需求,包括
    的頭像 發(fā)表于 03-11 12:01 ?2069次閱讀
    伺服電機<b class='flag-5'>編碼器</b>怎么選型