黄色片男人的天堂,人妻丰满熟妇av无码一区二区,欧美日韩91视频

雖然目前傳統(tǒng)的跨模態(tài)檢索工作已取得了巨大的進(jìn)展，但由于缺少低資源語(yǔ)言的標(biāo)注數(shù)據(jù)，這些工作通常關(guān)注于高資源語(yǔ)言（比如英語(yǔ)），因此極大地限制了低資源語(yǔ)言在該領(lǐng)域的發(fā)展。

為了解決這一問(wèn)題，作者針對(duì)跨語(yǔ)言跨模態(tài)檢索任務(wù)（CCR）展開(kāi)了研究，該任務(wù)旨在僅使用人工標(biāo)注的視覺(jué)-源語(yǔ)言（如英語(yǔ)）語(yǔ)料庫(kù)對(duì)模型進(jìn)行訓(xùn)練，使其可以適用于其他目標(biāo)語(yǔ)言（非英語(yǔ)）進(jìn)行評(píng)估【如下圖所示】。

傳統(tǒng)跨模態(tài)檢索&跨語(yǔ)言跨模態(tài)檢索（CCR）

在這篇論文中，作者旨在借助機(jī)器翻譯來(lái)生成偽視覺(jué)-目標(biāo)語(yǔ)言對(duì)進(jìn)行跨語(yǔ)言遷移，來(lái)緩解人工標(biāo)注多語(yǔ)言視覺(jué)-語(yǔ)言語(yǔ)料庫(kù)困難的問(wèn)題。雖然機(jī)器翻譯可以快速的處理大量的文本語(yǔ)言轉(zhuǎn)換，但是其準(zhǔn)確性并不能得到保證，因此在翻譯過(guò)程中將會(huì)引入大量的噪聲，導(dǎo)致翻譯的目標(biāo)語(yǔ)言句子并不能準(zhǔn)確的描述其對(duì)應(yīng)的視覺(jué)內(nèi)容【如下圖所示】。

然而之前的基于機(jī)器翻譯的CCR工作大多忽略了這個(gè)問(wèn)題，它們通常使用大規(guī)模的預(yù)訓(xùn)練模型在通過(guò)機(jī)器翻譯得到的大規(guī)模多語(yǔ)言視覺(jué)-語(yǔ)言語(yǔ)料庫(kù)上進(jìn)行大規(guī)模預(yù)訓(xùn)練，并且只關(guān)注于視覺(jué)-目標(biāo)語(yǔ)言數(shù)據(jù)對(duì)之間的對(duì)齊。然而直接在這種噪聲數(shù)據(jù)對(duì)上應(yīng)用跨模態(tài)匹配將會(huì)嚴(yán)重影響檢索性能，神經(jīng)網(wǎng)絡(luò)模型有很強(qiáng)的能力來(lái)擬合這種給定的(噪聲)數(shù)據(jù)。

為了解決這個(gè)問(wèn)題，作者提出了一個(gè)噪聲魯棒學(xué)習(xí)方法來(lái)緩解機(jī)器翻譯中所引入的噪聲問(wèn)題，該論文是首個(gè)關(guān)注于CCR任務(wù)中由機(jī)器翻譯所引入噪聲問(wèn)題的工作。

方法

模型框架圖

作者首先先引入了其「基線模型」

基線模型

視覺(jué)編碼器：給定一個(gè)視頻，使用預(yù)訓(xùn)練的2D CNN來(lái)提取視頻特征序列，然后輸入到Transformer塊中，來(lái)增強(qiáng)幀間交互，最終得到一個(gè)視頻特征向量

文本編碼器：作者設(shè)計(jì)了一個(gè)雙分支編碼器，分別又一個(gè)源語(yǔ)言分支和一個(gè)目標(biāo)語(yǔ)言分支組成。每個(gè)語(yǔ)言分支都包含一個(gè)Transformer block 和一個(gè)預(yù)訓(xùn)練的mBERT backbone，將源語(yǔ)言和目標(biāo)語(yǔ)言分別輸入到對(duì)應(yīng)的分支中，得到對(duì)應(yīng)的源語(yǔ)言句子特征和目標(biāo)語(yǔ)言句子特征

將以上三個(gè)特征分別映射到多語(yǔ)言多模態(tài)空間中

作者使用了傳統(tǒng)的跨模態(tài)檢索任務(wù)中常用的triplet ranking loss進(jìn)行約束：

噪聲魯棒的特征學(xué)習(xí)

基線模型只是簡(jiǎn)單的進(jìn)行了跨語(yǔ)言跨模態(tài)對(duì)齊，并沒(méi)有對(duì)噪聲進(jìn)行處理，接下來(lái)作者提出了多視圖自蒸餾來(lái)生成pseudo-tagets以監(jiān)督目標(biāo)語(yǔ)言分支的學(xué)習(xí)

作者首先借助于cross-attention來(lái)生成一個(gè)相對(duì)干凈的中間目標(biāo)語(yǔ)言句子特征，通過(guò)將源語(yǔ)言token序列作為query，利用cross-attenion固有的性質(zhì)，對(duì)目標(biāo)語(yǔ)言token序列進(jìn)行過(guò)濾。

cross-attention權(quán)重示例圖

如圖3所示，錯(cuò)誤的單詞(用紅色標(biāo)記)和源語(yǔ)言單詞之間的注意權(quán)重被分配了低值。其過(guò)程表示如下：

多視角自蒸餾

作者引入了基于相似度視角和基于特征視角的自蒸餾損失

基于相似度視角的自蒸餾（Similarity-based view）：

給定（V, S, T），默認(rèn)其兩兩之間互為匹配對(duì)，忽視翻譯得到的目標(biāo)語(yǔ)言句子T中所包含噪聲的事實(shí)。對(duì)此，作者將cross-attention所生成的特征作為teacher，使用特征和視覺(jué)特征計(jì)算計(jì)算得到一個(gè)soft pseudo-targets作為目標(biāo)語(yǔ)言分支的監(jiān)督

soft pseudo-targets示例圖

基于特征視角的自蒸餾（Feature-based view）：

通過(guò)l1范式實(shí)現(xiàn)特征蒸餾

循環(huán)語(yǔ)義一致性

受無(wú)監(jiān)督機(jī)器翻譯的啟發(fā)，作者引入了循環(huán)語(yǔ)義一致性模塊，提高源語(yǔ)言分支從噪聲中提高原始語(yǔ)義信息的能力。增加源語(yǔ)言分支的魯棒性。

語(yǔ)言無(wú)關(guān)特征學(xué)習(xí)

考慮到特定語(yǔ)言特征缺少跨語(yǔ)言遷移能力，作者通過(guò)對(duì)抗學(xué)習(xí)的方式來(lái)訓(xùn)練模型學(xué)習(xí)語(yǔ)言無(wú)關(guān)特征。構(gòu)建一個(gè)分類(lèi)器F作為判別器來(lái)分辨輸入特征是源語(yǔ)言還是目標(biāo)語(yǔ)言，判別器和特征編碼器相互博弈：

訓(xùn)練和測(cè)試

最終的目標(biāo)函數(shù)為：

測(cè)試時(shí)作者采用了目標(biāo)語(yǔ)言和翻譯的源語(yǔ)言（由于測(cè)試時(shí)只使用目標(biāo)語(yǔ)言）加權(quán)和的方式：

實(shí)驗(yàn)

作者在三個(gè)跨語(yǔ)言跨模態(tài)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)對(duì)比，其中為兩個(gè)多語(yǔ)言視頻文本檢索數(shù)據(jù)集（VATEX和MSRVTT-CN），一個(gè)多語(yǔ)言圖像文本檢索（Multi30K）；其中MSRVTT-CN是作者對(duì)MSRVTT進(jìn)行中文擴(kuò)展得到的多語(yǔ)言數(shù)據(jù)集

在VATEX數(shù)據(jù)集上進(jìn)行SOTA對(duì)比實(shí)驗(yàn)

MSRVTT-CN上性能對(duì)比

Multi30K上進(jìn)行性能對(duì)比實(shí)驗(yàn)

魯棒分析實(shí)驗(yàn)

為了進(jìn)一步證明模型對(duì)抗翻譯噪聲的魯棒能力，作者通過(guò)增加翻譯次數(shù)以進(jìn)一步增加訓(xùn)練數(shù)據(jù)的噪聲程度，如圖所示，在經(jīng)過(guò)多次翻譯后，基線模型的性能明顯下降，而本文所提出的模型性能更加的穩(wěn)定，驗(yàn)證了噪聲魯棒特征學(xué)習(xí)的有效性

將目標(biāo)語(yǔ)言句子根據(jù)句子長(zhǎng)度進(jìn)行分組，作者假設(shè)越長(zhǎng)的句子，翻譯越困難，因此包含的噪聲可能更多。結(jié)果表明，本文所提出的模型和基線模型的性能差距隨著句子長(zhǎng)度的增加而增加。

t-SNE可視化實(shí)驗(yàn)

作者隨機(jī)從VATEX的中文測(cè)試集中隨機(jī)選擇20個(gè)樣本，其中每個(gè)樣本包含10個(gè)對(duì)應(yīng)的英語(yǔ)翻譯句子和一個(gè)對(duì)應(yīng)的視頻。如圖所示，NRCCR的類(lèi)內(nèi)特征更加的緊湊，表明了模型更好的學(xué)習(xí)到了跨語(yǔ)言跨模態(tài)對(duì)齊。

消融實(shí)驗(yàn)

結(jié)果表明，使用兩個(gè)視角，性能得到了提升，表明基于相似度視角和基于特征視角彼此互補(bǔ)。引入循環(huán)語(yǔ)義一致性后，實(shí)現(xiàn)了額外的性能收益。此外，還表明了語(yǔ)言無(wú)關(guān)特征學(xué)習(xí)的重要性

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴