跪求av在线国产一页,超碰人人操97经AV在线,有码激情日韩熟女七区十八区

1.介紹

讓機(jī)器能以人類(lèi)智能相似的方式作出反應(yīng)一直是人工智能研究人員的目標(biāo)。為了讓機(jī)器能聽(tīng)會(huì)說(shuō)、能看會(huì)認(rèn)、能理解會(huì)思考，研究者提出一系列相關(guān)任務(wù)，如人臉識(shí)別、語(yǔ)音合成、閱讀理解等來(lái)訓(xùn)練及評(píng)價(jià)機(jī)器在某一方面的智能程度。具體來(lái)說(shuō)是，領(lǐng)域?qū)＜胰斯?gòu)造標(biāo)準(zhǔn)數(shù)據(jù)集，然后在其上訓(xùn)練及評(píng)價(jià)相關(guān)模型及方法。但由于相關(guān)技術(shù)的限制，要想獲得效果更好、能力更強(qiáng)的模型，往往需要在大量的有標(biāo)注的數(shù)據(jù)上進(jìn)行訓(xùn)練。

近期預(yù)訓(xùn)練模型的出現(xiàn)在一定程度上緩解了這個(gè)問(wèn)題。預(yù)訓(xùn)練模型的解決思路是，既然昂貴的人工標(biāo)注難以獲得，那么就去尋找廉價(jià)或者說(shuō)幾乎無(wú)代價(jià)的標(biāo)注信息。先利用廉價(jià)的標(biāo)注信息預(yù)訓(xùn)練模型再使用少量的昂貴的人工標(biāo)注對(duì)模型進(jìn)行微調(diào)。但是由于廉價(jià)的標(biāo)注信息帶來(lái)的信息比較少又含有噪音，往往需要超大規(guī)模的數(shù)據(jù)以及超長(zhǎng)的訓(xùn)練時(shí)間對(duì)模型進(jìn)行預(yù)訓(xùn)練。

目前來(lái)看這種代價(jià)是值得的，文本預(yù)訓(xùn)練模型BERT一出世就在多項(xiàng)NLP任務(wù)上取得最好的結(jié)果。受此影響，語(yǔ)音領(lǐng)域預(yù)訓(xùn)練模型也如雨后春筍般出現(xiàn)，如 MOCKINGJAY等。預(yù)訓(xùn)練模型通過(guò)在大規(guī)模無(wú)標(biāo)注數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，一方面可以將從無(wú)標(biāo)注數(shù)據(jù)上更加通用的知識(shí)遷移到目標(biāo)任務(wù)上，進(jìn)而提升任務(wù)性能；另一方面，通過(guò)預(yù)訓(xùn)練過(guò)程學(xué)習(xí)到更好的參數(shù)初始點(diǎn)使得模型在目標(biāo)任務(wù)上只需少量數(shù)據(jù)就能達(dá)到不錯(cuò)的效果。

那么能否將預(yù)訓(xùn)練方法應(yīng)用到多模態(tài)任務(wù)上呢？能否通過(guò)挖掘不同模態(tài)數(shù)據(jù)之間關(guān)系設(shè)計(jì)預(yù)訓(xùn)練任務(wù)訓(xùn)練模型呢？能否通過(guò)大規(guī)模的無(wú)標(biāo)注樣本讓模型理解懂得不同模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)呢（如：文字的“馬”與圖片中的“馬”）？研究人員也抱著同樣的問(wèn)題展開(kāi)了探索，并取得了一定成果。本文梳理了目前多模態(tài)預(yù)訓(xùn)練領(lǐng)域相關(guān)方法，并總結(jié)了各個(gè)方法所設(shè)計(jì)的預(yù)訓(xùn)練任務(wù)及驗(yàn)證實(shí)驗(yàn)所使用的下游任務(wù)，希望對(duì)讀者能有所幫助。

2.多模態(tài)預(yù)訓(xùn)練模型概覽

我們期望多模態(tài)預(yù)訓(xùn)練模型能夠通過(guò)大規(guī)模數(shù)據(jù)上的預(yù)訓(xùn)練學(xué)到不同模態(tài)之間的語(yǔ)義對(duì)應(yīng)關(guān)系。在圖像-文本中，我們期望模型能夠?qū)W會(huì)將文本中的“狗”和圖片中“狗”的樣子聯(lián)系起來(lái)。在視頻-文本中，我們期望模型能夠?qū)⑽谋局械奈矬w/動(dòng)作與視頻中的物體/動(dòng)作對(duì)應(yīng)起來(lái)。為實(shí)現(xiàn)這個(gè)目標(biāo)，需要巧妙地設(shè)計(jì)預(yù)訓(xùn)練模型來(lái)讓模型挖掘不同模態(tài)之間的關(guān)聯(lián)。本文將側(cè)重介紹“如何設(shè)計(jì)預(yù)訓(xùn)練任務(wù)”并通過(guò)表格來(lái)統(tǒng)計(jì)各個(gè)模型設(shè)計(jì)任務(wù)的異同。需要說(shuō)明的是，為了方便對(duì)比我們統(tǒng)一了不同論文對(duì)相似任務(wù)的稱呼。

本文將目前多模態(tài)預(yù)訓(xùn)練模型分為兩大類(lèi)，圖像-文本預(yù)訓(xùn)練模型（第3章）及視頻-文本預(yù)訓(xùn)練模型（第4章）。對(duì)于兩大類(lèi)預(yù)訓(xùn)練模型，我們進(jìn)一步將其分為Single-Stream 和Cross-Stream兩類(lèi)，Single-Stream將圖片、文本等不同模態(tài)的輸入一視同仁，輸入同一個(gè)模型進(jìn)行融合，而Cross-Stream將不同模態(tài)的輸入分別處理之后進(jìn)行交叉融合。在第3章和第4章的最后，會(huì)用表格列出各個(gè)模型所使用的預(yù)訓(xùn)練任務(wù)。在第5章會(huì)對(duì)目前的預(yù)訓(xùn)練模型的方法進(jìn)行總結(jié)。

3. 圖像-文本多模態(tài)預(yù)訓(xùn)練模型

3.1 Cross-Stream

3.1.1 ViLBERT［1］

模型細(xì)節(jié)

輸入的文本經(jīng)過(guò)文本Embedding層后被輸入到文本的單模態(tài)Transformer編碼器中提取上下文信息。使用預(yù)訓(xùn)練Faster R-CNN對(duì)于圖片生成候選區(qū)域提取特征并送入圖像Embedding層生成Embedding。然后將獲取好的文本和圖像的Embedding通過(guò)Co-attention-transformer模塊進(jìn)行相互交互融合，得到最后的表征。

ViLBERT模型圖如圖1所示，Co-attention-transformer模塊如圖2所示。

預(yù)訓(xùn)練任務(wù)

掩蔽文本預(yù)測(cè)（masked multi-modal modelling）與BERT的設(shè)計(jì)思路一樣，根據(jù)概率隨機(jī)替換掉文本中部分詞，使用［MASK］占位符替代，需要模型通過(guò)文本中上下文，以及對(duì)應(yīng)圖片中給出的信息，預(yù)測(cè)出被替換的詞。

掩蔽圖像預(yù)測(cè)（masked multi-modal modelling）通過(guò)掩蔽經(jīng)過(guò)Faster R-CNN提取到的預(yù)候選區(qū)域，使模型通過(guò)對(duì)應(yīng)文本以及其他區(qū)域的圖像預(yù)測(cè)出被遮掩區(qū)域的類(lèi)別。

圖片-文本對(duì)齊（multi-modal alignment）給定構(gòu)造好的圖文關(guān)系對(duì)，讓模型來(lái)判斷文本是否是對(duì)應(yīng)圖片的描述，具體是使用《IMG》以及《CLS》表示來(lái)判斷文本是否是對(duì)于圖像的描述。

下游任務(wù)

作者將該模型應(yīng)用到視覺(jué)問(wèn)答（Visual Question Answering）、視覺(jué)常識(shí)推理（Visual Commonsense Reasoning）、指示表達(dá)定位（Grounding Referring Expressions）、圖像檢索（Caption-Based Image Retrieval）等下游任務(wù)上，并且取得了較好的結(jié)果。

3.1.2 LXMERT［2］

模型細(xì)節(jié)

類(lèi)似于ViLBERT，對(duì)于文本和圖像經(jīng)過(guò)Embedding層之后被送入各自的單模態(tài)編碼器，然后通過(guò)跨模態(tài)編碼器進(jìn)行融合。

預(yù)訓(xùn)練任務(wù)

掩蔽文本預(yù)測(cè)（Masked Cross-Modality LM）該任務(wù)的設(shè)置與BERT的MLM任務(wù)設(shè)置一致。作者認(rèn)為除了從語(yǔ)言模態(tài)中的非模態(tài)詞中預(yù)測(cè)被掩蔽詞外，LXMERT還可利用其跨模態(tài)模型架構(gòu)，從視覺(jué)模態(tài)中預(yù)測(cè)被掩蔽詞，從而解決歧義問(wèn)題，所以將任務(wù)命名為Masked Cross-Modality LM以強(qiáng)調(diào)這種差異。

掩蔽圖像類(lèi)別預(yù)測(cè)（Detected-Label Classification）該任務(wù)要求模型根據(jù)圖像線索以及對(duì)應(yīng)文本線索預(yù)測(cè)出直接預(yù)測(cè)被遮蔽ROI的目標(biāo)類(lèi)別。

掩碼圖像特征回歸（RoI-Feature Regression）不同于類(lèi)別預(yù)測(cè)，該任務(wù)以L2損失回歸預(yù)測(cè)目標(biāo)ROI特征向量。

圖片-文本對(duì)齊（Cross-Modality Matching）通過(guò)50%的概率替換圖片對(duì)應(yīng)的文本描述，使模型判斷圖片和文本描述是否是一致的。

圖像問(wèn)答（Image Question Answering）作者使用了有關(guān)圖像問(wèn)答的任務(wù)，訓(xùn)練數(shù)據(jù)是關(guān)于圖像的文本問(wèn)題。當(dāng)圖像和文本問(wèn)題匹配時(shí)，要求模型預(yù)測(cè)這些圖像有關(guān)的文本問(wèn)題的答案。

作者將該模型在多個(gè)下游任務(wù)上進(jìn)行了測(cè)試，分別在視覺(jué)問(wèn)答任務(wù)（Visual Question Answering）、面向現(xiàn)實(shí)世界視覺(jué)推理（Visual Reasoning in the Real World）等取得了很好的效果。

3.1.3 ERNIE-ViL［3］

模型細(xì)節(jié)

模型結(jié)構(gòu)采用雙流架構(gòu)，對(duì)于圖像和文本分別使用單模編碼器進(jìn)行編碼然后使用跨模態(tài)Transformer實(shí)現(xiàn)兩個(gè)模態(tài)的信息交融。值得一提的是該模型引入了場(chǎng)景圖信息，通過(guò)將場(chǎng)景圖知識(shí)融入多模態(tài)預(yù)訓(xùn)練中，使得模型更能精準(zhǔn)把握?qǐng)D像和文本之間細(xì)粒度的對(duì)齊信息。模型圖如圖5所示。

模型在預(yù)訓(xùn)練任務(wù)中融入了場(chǎng)景圖（如圖6所示）的信息。場(chǎng)景圖中有目標(biāo)（objects）、屬性（attributes）、關(guān)系（relationships）三種類(lèi)別。

預(yù)訓(xùn)練任務(wù)

場(chǎng)景圖預(yù)測(cè)（Scene Graph Prediction）根據(jù)給定的一段文本解析出場(chǎng)景圖結(jié)構(gòu)，然后根據(jù)解析出的場(chǎng)景圖設(shè)計(jì)了三個(gè)子任務(wù)，分別是目標(biāo)預(yù)測(cè)（object prediction）、屬性預(yù)測(cè)（attribute prediction）、關(guān)系預(yù)測(cè)（relationship prediction），通過(guò)掩蔽圖像和文本中場(chǎng)景圖解析出來(lái)的目標(biāo)、屬性以及關(guān)系，使用模型進(jìn)行預(yù)測(cè)，以讓模型學(xué)習(xí)到跨模態(tài)之間的細(xì)粒度語(yǔ)義對(duì)齊信息。

同時(shí)模型還使用了傳統(tǒng)的預(yù)訓(xùn)練任務(wù)，分別是掩蔽文本預(yù)測(cè)（Masked Cross-Modality LM）、掩蔽圖像類(lèi)別預(yù)測(cè)（Detected-Label Classification），以及圖片-文本對(duì)齊（Cross-Modality Matching）。

下游任務(wù)

作者在下游多個(gè)任務(wù)上進(jìn)行檢測(cè)都取得了比較大的提升，具體有視覺(jué)常識(shí)推理（Visual Commonsense Reasoning）、視覺(jué)問(wèn)答（Visual Question Answering）、圖像檢索（Image Retrieval）、文本檢索（Text Retrieval）、指示表達(dá)定位（Grounding Referring Expressions）。

3.2 Single-Stream

3.2.1 VL-BERT［4］

模型細(xì)節(jié)

模型架構(gòu)與BERT相似，如圖7所示。整個(gè)模型的輸入有四部分embedding。

Token embedding層：對(duì)于文本內(nèi)容使用原始BERT的設(shè)定，但是添加了一個(gè)特殊符［IMG］作為圖像的token。

Visual feature embedding層：這層是為了嵌入視覺(jué)信息新添加的層。該層由視覺(jué)外部特征以及視覺(jué)幾何特征拼接而成，具體而言，對(duì)于非視覺(jué)部分的輸入是整個(gè)圖像的提取到的特征，對(duì)應(yīng)于視覺(jué)部分的輸入即為圖像經(jīng)過(guò)預(yù)訓(xùn)練之后的Faster R-CNN提取到的ROI區(qū)域圖像的相應(yīng)視覺(jué)特征。

Segment embedding層：模型定義了A、B、C三種類(lèi)型的標(biāo)記，為了指示輸入來(lái)自于不同的來(lái)源，A、B指示來(lái)自于文本，分別指示輸入的第一個(gè)句子和第二個(gè)句子，更進(jìn)一步的，可以用于指示QA任務(wù)中的問(wèn)題和答案；C指示來(lái)自于圖像。

Position embedding層：與BERT類(lèi)似，對(duì)于文本添加一個(gè)可學(xué)習(xí)的序列位置特征來(lái)表示輸入文本的順序和相對(duì)位置。對(duì)于圖像，由于圖像沒(méi)有相對(duì)的位置概念，所以圖像的ROI特征的位置特征都是相同的。

作者在視覺(jué)-語(yǔ)言數(shù)據(jù)集以及純語(yǔ)言數(shù)據(jù)集上都進(jìn)行了大規(guī)模的預(yù)訓(xùn)練，使用概念標(biāo)題數(shù)據(jù)庫(kù)（Conceptual Captions）數(shù)據(jù)集作為視覺(jué)-語(yǔ)言語(yǔ)料庫(kù)，該數(shù)據(jù)集包含了大約330萬(wàn)張帶有標(biāo)題注釋的圖片，圖片來(lái)自于互聯(lián)網(wǎng)。但是這個(gè)數(shù)據(jù)集存在一個(gè)問(wèn)題就是圖像對(duì)應(yīng)的標(biāo)題是簡(jiǎn)短的句子，這些句子很短并且很簡(jiǎn)單，為了避免模型只關(guān)注于簡(jiǎn)單子句，作者還使用了BooksCorpus和英語(yǔ)維基百科數(shù)據(jù)集進(jìn)行純文本的訓(xùn)練。

預(yù)訓(xùn)練任務(wù)

掩蔽文本預(yù)測(cè)（Masked Language Model with visual Clues）此任務(wù)與BERT中使用的Masked Language Modeling（MLM）任務(wù)非常相似。關(guān)鍵區(qū)別在于，在VL-BERT中包含了視覺(jué)線索，以捕獲視覺(jué)和語(yǔ)言內(nèi)容之間的依存關(guān)系。

掩蔽圖像類(lèi)別預(yù)測(cè)（Masked RoI Classification with Linguistic Clues）類(lèi)似于掩蔽文本預(yù)測(cè)，每個(gè)RoI圖像以15%的概率被隨機(jī)掩蔽，訓(xùn)練的任務(wù)是根據(jù)其他線索預(yù)測(cè)被掩藏的RoI的類(lèi)別標(biāo)簽。值得一提的是為了避免由于其他元素的視覺(jué)特征的嵌入導(dǎo)致視覺(jué)線索的泄漏，在使用Faster R-CNN之前，需要先將被Mask的目標(biāo)區(qū)域的像素置零。

下游任務(wù)

作者將模型應(yīng)用于視覺(jué)常識(shí)推理（Visual Commonsense Reasoning）、視覺(jué)問(wèn)答（Visual Question Answering）、引用表達(dá)式理解（Referring Expression Comprehension）任務(wù)，并且都取得了顯著的效果。

3.2.2 Image-BERT［5］

模型細(xì)節(jié)

圖8 Image-BERT模型圖

ImageBERT在圖像Embedding層添加了圖像位置編碼，即將通過(guò)Faster R-CNN得到的物體對(duì)應(yīng)的ROI區(qū)域相對(duì)于全局圖的位置信息，編碼為五維向量，作為位置編碼添加進(jìn)圖像的特征表示中。

預(yù)訓(xùn)練任務(wù)

掩蔽文本預(yù)測(cè)（Masked Language Modeling）此任務(wù)與BERT中使用的Masked Language Modeling（MLM）任務(wù)設(shè)定基本一致。

掩蔽圖像類(lèi)別預(yù)測(cè)（Masked Object Classification）此任務(wù)是MLM任務(wù)的擴(kuò)展。與語(yǔ)言建模類(lèi)似，通過(guò)對(duì)視覺(jué)對(duì)象進(jìn)行掩蔽建模，期望模型預(yù)測(cè)出被掩蔽的圖像token的類(lèi)別。

掩蔽圖像特征回歸（Masked Region Feature Regression）該任務(wù)旨在預(yù)測(cè)被掩蔽的視覺(jué)對(duì)象的嵌入特征。通過(guò)在相應(yīng)位置的輸出特征向量后添加一個(gè)全連接層，以將其投影到與原始RoI對(duì)象特征相同的維度上，然后應(yīng)用L2損失來(lái)進(jìn)行回歸。

圖片-文本對(duì)齊（Image-Text Matching）除了語(yǔ)言建模任務(wù)和視覺(jué)內(nèi)容建模任務(wù)之外，作者還添加了圖片-文本對(duì)齊任務(wù)以學(xué)習(xí)圖像-文本對(duì)齊。對(duì)于每個(gè)訓(xùn)練樣本，對(duì)每個(gè)圖像隨機(jī)抽取負(fù)例句子，對(duì)每個(gè)句子隨機(jī)抽取負(fù)例圖像以生成負(fù)例訓(xùn)練數(shù)據(jù)，讓模型判斷給定的圖像文本對(duì)是否對(duì)應(yīng)。

下游任務(wù)

作者在MSCOCO以及Filcker30k數(shù)據(jù)上分別測(cè)試模型在圖像檢索（Image Retrieval）以及文本檢索（Sentence Retrieval）任務(wù)上的性能，取得了一定的提升。

表1 圖像-文本預(yù)訓(xùn)練模型概覽表

4. 視頻文本多模態(tài)預(yù)訓(xùn)練

4.1 Cross-Stream

4.1.1 UniVL［6］

模型細(xì)節(jié)

該模型先使用單模態(tài)編碼器對(duì)文本與視頻數(shù)據(jù)進(jìn)行單獨(dú)建模，再使用跨模態(tài)編碼器對(duì)兩個(gè)模態(tài)的表示進(jìn)行聯(lián)合編碼。

預(yù)訓(xùn)練任務(wù)

視頻-文本單模態(tài)表示空間對(duì)齊（video-text joint）為了利用BERT來(lái)幫助模型獲得更好的視頻表示，作者設(shè)計(jì)了視頻-文本單模態(tài)表示空間對(duì)齊任務(wù)。該任務(wù)具體是，構(gòu)造正例對(duì)（視頻與對(duì)應(yīng)/相近的文本）和負(fù)例對(duì)（視頻與不相關(guān)的文本），希望正例對(duì)中的視頻表示與文本表示更接近而負(fù)例對(duì)中的更遠(yuǎn)。其中，視頻表示由視頻單模態(tài)編碼器得出，文本表示由文本單模態(tài)編碼器得出。

條件掩蔽文本預(yù)測(cè)（conditioned masked language model）與BERT的設(shè)計(jì)思路類(lèi)似，作者設(shè)計(jì)條件掩蔽文本預(yù)測(cè)任務(wù)來(lái)訓(xùn)練模型。文本中的詞被隨機(jī)替換成占位符［MASK］，然后替換后的文本與視頻進(jìn)行聯(lián)合表示后，預(yù)測(cè)替換前的詞。

掩蔽幀預(yù)測(cè)（conditioned masked frame model）輸入的視頻幀被隨機(jī)替換成占位符號(hào)，然后使用模型來(lái)預(yù)測(cè)被替換的視頻幀。由于直接預(yù)測(cè)原始的RGB視頻幀非常困難，因此作者使用對(duì)比學(xué)習(xí)的方法，希望原始視頻幀與模型相應(yīng)位置得到的表示相關(guān)性更高。

視頻-文本對(duì)齊（video-text alignment）視頻與相應(yīng)的文本之間對(duì)齊標(biāo)簽為1，而與其他文本對(duì)應(yīng)的標(biāo)簽為0。使用這個(gè)對(duì)齊信息作為監(jiān)督信號(hào)訓(xùn)練模型。

文本重構(gòu)（language reconstruction）為了使得模型能夠應(yīng)用到下游任務(wù)-視頻描述生成上，作者設(shè)計(jì)了文本重構(gòu)任務(wù)。具體采用了一個(gè)自回歸解碼器，其輸入為處理后的文本和視頻幀，輸出是原始的文本。

下游任務(wù)

作者在視頻檢索（Text-based Video Retrieval）、視頻描述生成（Multimodal Video Captioning）、行為分割（Action Segmentation）、動(dòng)作定位（Action step localization），以及多模態(tài)情感分類(lèi)（Multimodal Sentiment Analysis）等下游任務(wù)上進(jìn)行了實(shí)驗(yàn)，驗(yàn)證了模型的有效性。

4.1.2 ActBERT［7］

模型細(xì)節(jié)

與之前不同的是本工作考慮了視頻中更細(xì)粒度的信息——物體信息，引入掩蔽物體預(yù)測(cè)任務(wù)，使得模型更細(xì)粒度地捕捉圖像信息。工作框圖如下。

圖10 ActBERT 模型圖

為了使得模型能夠充分利用文本信息、視頻中時(shí)序信息，以及視頻中物體信息，該工作提出了Tangled Transformer模型，模型圖如下。a-transformer模塊對(duì)動(dòng)作特征進(jìn)行建模，r-transformer模塊對(duì)物體對(duì)象特征進(jìn)行建模，w-transformer模塊對(duì)文本特征進(jìn)行建模。三者之間的信息通過(guò)跨模態(tài)的多頭注意力機(jī)制進(jìn)行交互。

圖11 Tangled Transformer模型

預(yù)訓(xùn)練任務(wù)

掩蔽文本預(yù)測(cè)（Masked Language Modeling with Global and Local Visual Cues）該任務(wù)設(shè)計(jì)與BERT一致，掩蔽部分詞，然后將文本與動(dòng)作特征以及物體特征送入模型中進(jìn)行聯(lián)合建模，最后使用相應(yīng)位置的輸出向量預(yù)測(cè)被掩蔽的詞。

掩蔽動(dòng)作預(yù)測(cè)（Masked Action Classification）隨機(jī)將輸入的動(dòng)作表示向量進(jìn)行掩蔽，然后強(qiáng)迫模型通過(guò)其他信息如文本信息和物體信息來(lái)預(yù)測(cè)出動(dòng)作的標(biāo)簽如add等。

掩蔽物體預(yù)測(cè)（Masked Object Classification）隨機(jī)將物體特征向量進(jìn)行掩蔽，然后讓模型預(yù)測(cè)出該位置上物體的分布概率。希望預(yù)測(cè)出來(lái)的概率與Faster R-CNN對(duì)該區(qū)域的預(yù)測(cè)概率相近。

視頻-文本對(duì)齊（Cross-modal matching）使用［CLS］的表示去預(yù)測(cè)文本與視頻是否匹配，負(fù)例是通過(guò)隨機(jī)從其他數(shù)據(jù)中進(jìn)行采樣得到。

下游任務(wù)

作者將該模型應(yīng)用到視頻檢索（Text-video clip retrieval）、視頻描述生成（Video Captioning）、行為分割（Action Segmentation）、視頻問(wèn)答（Video question answering）、動(dòng)作定位（Action step localization）等下游任務(wù)上。

4.2 Single-Stream

4.2.1 VideoBERT［8］

模型細(xì)節(jié)

該工作使用Transformer對(duì)文本和視頻統(tǒng)一進(jìn)行建模。

圖12 VideoBERT 模型圖

預(yù)訓(xùn)練任務(wù)

掩蔽文本預(yù)測(cè)（text-only mask-completion）與BERT的設(shè)計(jì)思路一樣，文本中的詞被隨機(jī)替換成占位符［MASK］，然后替換后的文本與視頻進(jìn)行聯(lián)合表示后，預(yù)測(cè)替換前的詞。

掩蔽視頻預(yù)測(cè)（video-only mask-completion）為了使得模型適配于BERT架構(gòu)，作者建立“視覺(jué)詞表”將輸入視頻量化。具體是，將所有視頻切成片段，使用S3D模型對(duì)片段進(jìn)行表示。然后使用聚類(lèi)算法對(duì)表示進(jìn)行聚類(lèi)，共得到20736個(gè)聚類(lèi)中心，這樣每個(gè)視頻片段就可以由聚類(lèi)中心來(lái)表示，即可將視頻片段用離散的聚類(lèi)中心編號(hào)進(jìn)行表示。輸入的“視覺(jué)詞”被隨機(jī)替換成占位符號(hào)，然后使用模型來(lái)預(yù)測(cè)被替換的“視覺(jué)詞”。

視頻-文本對(duì)齊（linguistic-visual alignment）使用［CLS］表示預(yù)測(cè)視頻和文本是否在時(shí)序上對(duì)齊。

下游任務(wù)

作者在動(dòng)作識(shí)別、視頻描述生成等下游任務(wù)上進(jìn)行了實(shí)驗(yàn)。此外，該模型還可以用于給定文本生成視頻以及給定視頻上文生成視頻下文等任務(wù)。

4.2.2 HERO［9］

模型細(xì)節(jié)

該篇工作為了捕捉視頻的時(shí)序信息以及文本與視頻的對(duì)應(yīng)信息設(shè)計(jì)了兩個(gè)新的預(yù)訓(xùn)練任務(wù)，視頻字幕對(duì)齊（Video Subtitle Matching）以及視頻幀順序建模（Frame Order Modeling）。整體工作框架如下。（注：每個(gè)句子的文本以及對(duì)應(yīng)的視頻幀通過(guò)Cross-Modal Transformer得到經(jīng)過(guò)交互后的表示（棕色為文本表示），然后將獲得的視頻幀的表示送入到后續(xù)模塊中。）

圖13 HERO 模型圖

預(yù)訓(xùn)練任務(wù)

掩蔽文本預(yù)測(cè)（Masked Language Modeling）該任務(wù)設(shè)計(jì)與BERT一致，掩蔽部分詞，然后將文本與視頻幀特征送入模型中進(jìn)行聯(lián)合建模，最后使用相應(yīng)位置的輸入向量預(yù)測(cè)被掩蔽的詞。

掩蔽幀預(yù)測(cè)（Masked Frame Modeling）該任務(wù)設(shè)計(jì)與BERT類(lèi)似，掩蔽部分幀向量，然后將文本與視頻幀特征送入模型中進(jìn)行聯(lián)合建模，最后使用相應(yīng)位置的輸出向量預(yù)測(cè)被掩蔽的幀。實(shí)現(xiàn)幀的預(yù)測(cè)可使用兩種方式，一種是預(yù)測(cè)出幀向量，然后與標(biāo)準(zhǔn)幀向量計(jì)算損失。第二種是使用對(duì)比學(xué)習(xí)的方法，被掩蔽位置對(duì)應(yīng)的輸出向量應(yīng)與被掩蔽的幀向量更為相關(guān)。

視頻字幕對(duì)齊（Video Subtitle Matching）作者為了更好的建模視頻與文本，提出了視頻字幕對(duì)齊（Video Subtitle Matching）任務(wù)。該任務(wù)包含兩個(gè)任務(wù)目標(biāo)，第一個(gè)是從一個(gè)完整視頻對(duì)應(yīng)的字幕中隨機(jī)采樣出一個(gè)句子，希望模型能夠找出該句子在視頻中對(duì)應(yīng)的起始位置。第二個(gè)是從一個(gè)完整視頻對(duì)應(yīng)的字幕中隨機(jī)采樣出一個(gè)句子，希望該句子與該視頻之間相關(guān)性更強(qiáng)而與其他視頻相關(guān)性更弱。

視頻幀順序建模（Frame Order Modeling）為了更好的建模視頻的時(shí)序性，隨機(jī)打亂部分輸入幀的順序，然后利用模型預(yù)測(cè)出來(lái)每一幀對(duì)應(yīng)的實(shí)際位置。具體實(shí)踐時(shí)將其建模成一個(gè)分類(lèi)任務(wù)，類(lèi)別數(shù)為輸入長(zhǎng)度為N。

下游任務(wù)

作者在視頻檢索（video-subtitle moment retrieval）、視頻問(wèn)答（Video question answering），以及視頻文本推理（video-and-language inference）等下游任務(wù)上驗(yàn)證了模型的有效性。

表2 視頻-文本預(yù)訓(xùn)練模型概覽表

5. 總結(jié)

本文簡(jiǎn)單梳理了多模態(tài)圖像-文本預(yù)訓(xùn)練模型以及多模態(tài)視頻-文本預(yù)訓(xùn)練模型，簡(jiǎn)單介紹了相關(guān)預(yù)訓(xùn)練模型架構(gòu)，設(shè)計(jì)的預(yù)訓(xùn)練任務(wù)，以及衡量模型性能的下游任務(wù)。

通過(guò)對(duì)多模態(tài)預(yù)訓(xùn)練任務(wù)的梳理，我們可以發(fā)現(xiàn)，現(xiàn)有預(yù)訓(xùn)練任務(wù)主要有兩大類(lèi)，一類(lèi)是主要針對(duì)單個(gè)模態(tài)數(shù)據(jù)設(shè)計(jì)的，如掩蔽文本預(yù)測(cè)、掩蔽圖像預(yù)測(cè)、掩蔽幀預(yù)測(cè)。其中掩蔽文本預(yù)測(cè)仍然沿用BERT的設(shè)計(jì)，掩蔽圖像預(yù)測(cè)和掩蔽幀預(yù)測(cè)一般都不會(huì)直接預(yù)測(cè)原始的物體對(duì)象/幀圖像，而是預(yù)測(cè)特征。由于視頻具有時(shí)序性，有些模型還設(shè)計(jì)了視頻幀順序建模任務(wù)。

該類(lèi)任務(wù)可以使用多模態(tài)數(shù)據(jù)，也可只使用單模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練。使用多模態(tài)數(shù)據(jù)時(shí)，模型預(yù)測(cè)時(shí)不僅可以使用該模態(tài)內(nèi)部的信息，還可以使用其他模態(tài)的信息。第二類(lèi)主要是針對(duì)多模態(tài)數(shù)據(jù)而設(shè)計(jì)的。該類(lèi)任務(wù)通過(guò)挖掘不同模態(tài)數(shù)據(jù)中的對(duì)應(yīng)關(guān)系，設(shè)計(jì)預(yù)訓(xùn)練目標(biāo)，如視頻-文本對(duì)齊、圖片-文本對(duì)齊等。對(duì)于視頻，還有研究者提出視頻字幕對(duì)齊任務(wù)，來(lái)讓模型捕捉兩模態(tài)信息之間的關(guān)聯(lián)。

目前的多模態(tài)預(yù)訓(xùn)練模型相關(guān)工作已經(jīng)取得了一定的進(jìn)展，在多個(gè)下游任務(wù)上有了不俗的表現(xiàn)。未來(lái)的工作可能從以下幾個(gè)方向取得進(jìn)一步的進(jìn)展，第一是單模態(tài)下游任務(wù)上能否取得提升?，F(xiàn)在大部分多模態(tài)預(yù)訓(xùn)練模型都是在多模態(tài)的下游任務(wù)上進(jìn)行測(cè)試，少有工作在單模態(tài)任務(wù)如自然語(yǔ)言處理任務(wù)與單模態(tài)預(yù)訓(xùn)練模型如RoBERTa進(jìn)行全面的比較。

如果認(rèn)為模型在多模態(tài)數(shù)據(jù)上通過(guò)預(yù)訓(xùn)練能夠更加充分的理解語(yǔ)義，那么直覺(jué)上看多模態(tài)預(yù)訓(xùn)練模型與單模態(tài)模型在相近的實(shí)驗(yàn)設(shè)置下（如語(yǔ)料規(guī)模相似）應(yīng)當(dāng)取得更好的成績(jī)。第二是更精細(xì)的挖掘不同模態(tài)數(shù)據(jù)間的相關(guān)信息并設(shè)計(jì)更巧妙的預(yù)訓(xùn)練任務(wù)。比如挖掘圖像-文本之間，名詞與物體對(duì)象之間的相關(guān)性，使得模型建立詞語(yǔ)與物體對(duì)象之間的相關(guān)性。第三是設(shè)計(jì)更高效的模型架構(gòu)以及挖掘更大規(guī)模的高質(zhì)量多模態(tài)數(shù)據(jù)。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴