韩国无码精品亚洲成人四区,91精品动漫黄色98AV,高清不卡视频一二三区不卡

導(dǎo)讀

隨著Transformer在視覺中的崛起，Transformer在多模態(tài)中應(yīng)用也是合情合理的事情，甚至以后可能會有更多的類似的paper。先來解釋一下什么多模態(tài)，模態(tài)譯作modality，多模態(tài)譯作multimodel。多模態(tài)學(xué)習(xí)主要有一下幾個方向：表征、轉(zhuǎn)化、對齊、融合和協(xié)同學(xué)習(xí)。人就是生活在一個多模態(tài)的世界里面，文字、視覺、語言都是不同的模態(tài)，當(dāng)我們能夠同時從視覺、聽覺、嗅覺等等來識別當(dāng)前發(fā)生的事情，實(shí)際上我們就是在做了多模態(tài)的融合。而Transformer is All You Need這篇論文（從Attention is All You Need開始大家都成了標(biāo)題黨，X is All You Need）是屬于協(xié)同學(xué)習(xí)（Co-learning）的范疇，將多個不同的tasks一起訓(xùn)練，共享模型參數(shù)。

背景介紹

這篇論文出自Facebook AI Research，文章提出了UniT，Unified Transformer model，用一個Transformer模型去同時學(xué)習(xí)多個不同的tasks，甚至這些tasks的領(lǐng)域都可能不同，從目標(biāo)檢測到語言理解，一共訓(xùn)練了7個tasks8個datasets，但是各個beachmark上都取得了不錯的成績。Transformer在各種不同的領(lǐng)域中都取得了極大的成功，例如NLP、images、video和audio，不僅在以上領(lǐng)域表現(xiàn)出色，甚至在一些vision-and-language reasoning的tasks上，比如VQA（visual question answering）也有很強(qiáng)的表現(xiàn)。但是現(xiàn)有的一些多模態(tài)的模型基本都是關(guān)注某一個領(lǐng)域的不同task或者就是用將近N倍的參數(shù)去處理N個不同的領(lǐng)域問題。在17年谷歌提出的《One Model To Learn Them All》［1］中也使用了Transformer encoder-decoder的架構(gòu)，但是不同的是，它對于每個task都需要一個與之對應(yīng)的decoder，如下圖。類似的還有MT-DNN［2］和VILBERT-MT［3］等等。

UniT： One transformer to learn them all

用單個模型去訓(xùn)練跨模態(tài)的任務(wù)，UniT包括對于不同的task對于的encoder，因?yàn)椴煌B(tài)的數(shù)據(jù)需要經(jīng)過處理才能放到同一個網(wǎng)絡(luò)，就和人獲得不同模態(tài)的信息需要不同的器官一樣。然后這些信息會經(jīng)過一個共享decoder，最后各個task會有對應(yīng)的簡單的head進(jìn)行最后的輸出。UniT有兩種不同模態(tài)的輸入：圖像和文本。也就是說只需要兩個對應(yīng)的encoder就可以訓(xùn)練7種不同的任務(wù)，可以形象地比喻這個網(wǎng)絡(luò)有兩個不同的器官（Image encoder和Text encoder）。

Image encoder一些視覺相關(guān)的task，比如目標(biāo)檢測、視覺問答等都需要處理圖像，在UniT中，圖像先經(jīng)過一個卷積的backbone，然后再用transformer對特征進(jìn)行編碼，進(jìn)一步得到編碼后的向量。圖像的處理與DETR［4］類似。xv=B（I），xv是經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)B得到的特征圖，B采用了ResNet-50，并在C5中使用了空洞卷積。再用encoder Ev得到圖像編碼的向量，這里使用encoder進(jìn)行編碼時為了區(qū)別不同的task加入了task embedding以進(jìn)行區(qū)分，和IPT中的作法類似，因?yàn)椴煌膖ask它可能關(guān)注的點(diǎn)不一樣。

Text encoder對于文本的輸入，采用BERT來進(jìn)行編碼，BERT是一個在大規(guī)模語料庫上預(yù)訓(xùn)練好的模型。給定輸入的文本，和BERT處理一樣，先將文本編碼成tokens的序列{w1， · · · ， wS}，和image encoder一樣，還需要加入一個wtask來區(qū)分不同的task。在實(shí)現(xiàn)中，采用了embedding維度是768，12層的BERT。

Domain-agnostic UniT decoder領(lǐng)域不可知的解碼器，和image和text encoder不一樣的是encoder是針對某一特定領(lǐng)域的，但是encoder的輸入可以是來自與image encoder或者是text encoder，所以是領(lǐng)域不可知。對于純視覺、純文本和視覺文本混合的task，encoder的輸入是不一樣的，純視覺和純文本的task的情況下，decoder的輸入就是它們各自encoder的輸出，但是對于視覺文本的task，decoder的輸入是兩個encoder輸出的拼接，這很好理解，因?yàn)樾枰猇QA這種同時會有image和text的輸入。

Task-specific output heads每個task可能最后的輸出差別很大，因此最后使用對應(yīng)的prediction head來進(jìn)行最后的預(yù)測。對于檢測任務(wù)來說，最后decoder產(chǎn)生的每個向量都會produce一個輸出，輸出包括類別和bounding box。當(dāng)然，對于不同的task，decoder輸入的query是不同的。

Experiments

下圖是所用到的8個不同的數(shù)據(jù)集以及上面的測試結(jié)果，可以看到不同任務(wù)的區(qū)別還是很大的。

根據(jù)下圖的對比，其實(shí)UniT有些task離SOTA還是差的有點(diǎn)遠(yuǎn)，所以這個領(lǐng)域還是有很大的挖掘的空間的。

Conclusion

在這篇論文中，我們可以看到，Transformer確實(shí)是可以來處理不同的領(lǐng)域的，跨領(lǐng)域?qū)W習(xí)確實(shí)是個很大的難題，那么Transformer能否成為多模態(tài)領(lǐng)域發(fā)展的一個跳板呢？我們拭目以待。

Reference論文鏈接：https://arxiv.org/abs/2102.10772
編輯：lyn

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴