深度解析CLIP在視覺(jué)語(yǔ)言理解與定位任務(wù)上的無(wú)監(jiān)督遷移研究

　　CLIP-VG： Self-paced Curriculum Adapting of CLIP for Visual Grounding

　　論文題目：CLIP-VG： Self-paced Curriculum Adapting of CLIP for Visual Grounding

　　發(fā)表期刊：IEEE Transactions on Multimedia 一區(qū)頂刊

　　工作內(nèi)容：基于自步課程學(xué)習(xí)實(shí)現(xiàn)多模態(tài)大模型CLIP在多模態(tài)視覺(jué)語(yǔ)言理解與定位任務(wù)上的無(wú)監(jiān)督遷移研究

第一作者：肖麟慧（中科院自動(dòng)化所博士）通訊作者：徐常勝作者單位：中國(guó)科學(xué)院自動(dòng)化所-多模態(tài)人工智能系統(tǒng)全國(guó)重點(diǎn)實(shí)驗(yàn)室；鵬城實(shí)驗(yàn)室；中國(guó)科學(xué)院大學(xué)人工智能學(xué)院 ?

圖1。我們提出的CLIP-VG的主要思想，它在自步課程自適應(yīng)的范式中使用偽語(yǔ)言標(biāo)簽來(lái)自適應(yīng)CLIP，從而實(shí)現(xiàn)在視覺(jué)定位的任務(wù)上得遷移學(xué)習(xí)。

論文摘要：

視覺(jué)定位(VG)是視覺(jué)和語(yǔ)言領(lǐng)域的一個(gè)重要課題，它涉及到在圖像中定位由表達(dá)句子所描述的特定區(qū)域。為了減少對(duì)人工標(biāo)記數(shù)據(jù)的依賴，無(wú)監(jiān)督的方法使用偽標(biāo)簽進(jìn)行學(xué)習(xí)區(qū)域定位。然而，現(xiàn)有的無(wú)監(jiān)督方法的性能高度依賴于偽標(biāo)簽的質(zhì)量，并且這些方法總是遇到多樣性有限的問(wèn)題。為了利用視覺(jué)和語(yǔ)言預(yù)訓(xùn)練模型來(lái)解決定位問(wèn)題，并合理利用偽標(biāo)簽，我們提出了一種新穎的方法CLIP-VG，它可以使用偽語(yǔ)言標(biāo)簽對(duì)CLIP進(jìn)行自步式地課程自適應(yīng)。我們提出了一個(gè)簡(jiǎn)單而高效的端到端網(wǎng)絡(luò)架構(gòu)來(lái)實(shí)現(xiàn)CLIP到視覺(jué)定位的遷移。在以CLIP為基礎(chǔ)的架構(gòu)的基礎(chǔ)上，我們進(jìn)一步提出了單源和多源課程自適應(yīng)算法，這些算法可以逐步找到更可靠的偽語(yǔ)言標(biāo)簽來(lái)學(xué)習(xí)最優(yōu)模型，從而實(shí)現(xiàn)偽語(yǔ)言標(biāo)簽的可靠性和多樣性之間的平衡。我們的方法在單源和多源場(chǎng)景下的RefCOCO/+/g數(shù)據(jù)集上都明顯優(yōu)于當(dāng)前最先進(jìn)的無(wú)監(jiān)督方法，提升幅度分別為從6.78%至10.67%和11.39%至14.87%。此外，我們的方法甚至優(yōu)于現(xiàn)有的弱監(jiān)督方法。代碼和模型可在https://github.com/linhuixiao/CLIP-VG上獲得。

論文引言：

視覺(jué)定位(Visual Grounding，VG)，又稱指代表達(dá)理解（Referring Expression Comprehension，REC)，或短語(yǔ)定位（Phrase Grounding, PG)，是指在特定圖像中定位文本表達(dá)句子所描述的邊界框(bounding box，即bbox)區(qū)域，這一技術(shù)已成為視覺(jué)問(wèn)答[6]、視覺(jué)語(yǔ)言導(dǎo)航[7]等視覺(jué)語(yǔ)言(Vision-Language, V-L)領(lǐng)域的關(guān)鍵技術(shù)之一。? ? ?

由于其跨模態(tài)的特性，定位需要同時(shí)理解語(yǔ)言表達(dá)和圖像的語(yǔ)義，這一直是一項(xiàng)具有挑戰(zhàn)性的任務(wù)?？紤]到其任務(wù)復(fù)雜性，現(xiàn)有的方法大多側(cè)重于全監(jiān)督設(shè)置(即，使用手工三元組數(shù)據(jù)作為監(jiān)督信號(hào))。然而，有監(jiān)督的定位要求需要高質(zhì)量的手工標(biāo)注信息。具體來(lái)說(shuō)，表達(dá)句子需要與bbox配對(duì)，同時(shí)在指代上是唯一的，并且需要具有豐富的語(yǔ)義信息。為了減少對(duì)手工勞動(dòng)密集的標(biāo)記數(shù)據(jù)的依賴，弱監(jiān)督(即，僅給定圖像和查詢對(duì)，沒(méi)有配對(duì)的bbox)和無(wú)監(jiān)督定位(即，不使用任何與任務(wù)相關(guān)的標(biāo)注信息去學(xué)習(xí)定位圖像區(qū)域)最近受到越來(lái)越多的關(guān)注?，F(xiàn)有的無(wú)監(jiān)督定位方法主要是利用預(yù)訓(xùn)練的檢測(cè)器和額外的大規(guī)模語(yǔ)料庫(kù)實(shí)現(xiàn)對(duì)未配對(duì)數(shù)據(jù)的指代定位。最先進(jìn)的(SOTA)無(wú)監(jiān)督方法提出使用人工設(shè)計(jì)的模板和空間關(guān)系先驗(yàn)知識(shí)來(lái)匹配目標(biāo)和屬性檢測(cè)器獲得的結(jié)果，以及相應(yīng)的目標(biāo)bbox。這將生成表達(dá)式和bbox偽對(duì)，它們被用作為偽標(biāo)簽，進(jìn)而以監(jiān)督的方式學(xué)習(xí)定位模型。然而，這些現(xiàn)有方法中的偽標(biāo)注信息的有效性嚴(yán)重依賴于總是在特定數(shù)據(jù)集上預(yù)訓(xùn)練的目標(biāo)或?qū)傩詸z測(cè)器。這可能會(huì)限制語(yǔ)言分類和匹配模式的多樣性，以及上下文語(yǔ)義的豐富度，最終損害模型泛化能力。

在過(guò)去的幾年里，視覺(jué)語(yǔ)言預(yù)訓(xùn)練(Vision-Language Pre-trained, VLP)基礎(chǔ)模型(如CLIP)通過(guò)使用少量任務(wù)相關(guān)數(shù)據(jù)來(lái)進(jìn)行遷移或提示的范式，在許多下游任務(wù)上取得了令人振奮的結(jié)果。這些基礎(chǔ)模型的主要優(yōu)點(diǎn)是，它們可以通過(guò)自監(jiān)督約束從現(xiàn)成的web數(shù)據(jù)和各種下游任務(wù)數(shù)據(jù)(例如，BeiT3)中學(xué)習(xí)一般通用的知識(shí)。這啟發(fā)我們考慮轉(zhuǎn)移VLP模型(即，本工作中使用CLIP)，以無(wú)監(jiān)督的方式解決下游定位任務(wù)。然而由于缺乏與任務(wù)相關(guān)的標(biāo)記數(shù)據(jù)，因此，這是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。一個(gè)直接的解決方案是利用以前的無(wú)監(jiān)督定位方法中生成的偽標(biāo)簽來(lái)微調(diào)預(yù)訓(xùn)練的模型。然而，這將影響預(yù)訓(xùn)練模型的泛化能力，因?yàn)樘囟ǖ膫螛?biāo)簽和真實(shí)特定任務(wù)的標(biāo)簽之間存在差距。

在本文中，我們提出了CLIP-VG，如圖1所示，這是一種新穎的方法，可以通過(guò)利用偽語(yǔ)言標(biāo)簽來(lái)解決視覺(jué)定位問(wèn)題，對(duì)CLIP進(jìn)行自步地課程自適應(yīng)。首先，我們提出了一個(gè)簡(jiǎn)單而高效的端到端純Transformer的僅編碼器的網(wǎng)絡(luò)架構(gòu)。我們?yōu)榱藢?shí)現(xiàn)CLIP向視覺(jué)定位的任務(wù)遷移，只需要調(diào)整少量的參數(shù)，花費(fèi)最少的訓(xùn)練資源。其次，為了通過(guò)尋找可靠的偽標(biāo)簽來(lái)實(shí)現(xiàn)對(duì)基于CLIP的網(wǎng)絡(luò)架構(gòu)的更穩(wěn)定的自適應(yīng)遷移，我們提出了一種評(píng)估實(shí)例級(jí)標(biāo)簽質(zhì)量的方案和一種基于自步課程學(xué)習(xí)(SPL)的漸進(jìn)自適應(yīng)算法，即可靠性評(píng)估(III-C部分)和單源自步自適應(yīng)(SSA)算法(III-D部分)。實(shí)例級(jí)可靠性被定義為通過(guò)特定標(biāo)簽源學(xué)習(xí)的評(píng)估器模型正確預(yù)測(cè)的可能性。具體而言，我們學(xué)習(xí)了一個(gè)初步的定位模型作為可靠性評(píng)估器，以CLIP為偽標(biāo)簽的主干，然后對(duì)樣本的可靠性進(jìn)行評(píng)分，構(gòu)建可靠性直方圖(RH)。接下來(lái)，根據(jù)構(gòu)建的RH，以自步的方式執(zhí)行SSA算法，逐步采樣更可靠的偽標(biāo)簽，以提高定位的性能。為了有效地選擇偽配對(duì)的數(shù)據(jù)子集，我們?cè)O(shè)計(jì)了一種基于改進(jìn)的二叉搜索的貪心樣本選擇策略，以實(shí)現(xiàn)可靠性和多樣性之間的最優(yōu)平衡。

我們所提出的CLIP-VG的一個(gè)主要優(yōu)點(diǎn)是其漸進(jìn)式自適應(yīng)框架不依賴于偽標(biāo)簽的特定形式或質(zhì)量。因此，CLIP-VG可以靈活擴(kuò)展，訪問(wèn)多個(gè)偽標(biāo)簽源。在多源場(chǎng)景中，我們首先獨(dú)立學(xué)習(xí)每個(gè)偽標(biāo)簽源的特定源的定位模型。然后，我們提出了源級(jí)復(fù)雜度的評(píng)估標(biāo)準(zhǔn)。具體而言，在SPL的不同步驟中，我們根據(jù)每個(gè)表達(dá)式中實(shí)體的平均數(shù)量，從簡(jiǎn)單到復(fù)雜逐步選擇偽標(biāo)簽源。在SSA的基礎(chǔ)上，我們進(jìn)一步提出了特定源可靠性(SR)和跨源可靠性(CR)，以及多源自適應(yīng)(MSA)算法(第3 - e節(jié))。特定源的可靠性定義為使用當(dāng)前標(biāo)簽源學(xué)習(xí)的定位模型正確預(yù)測(cè)當(dāng)前偽標(biāo)簽的可能性近似。相應(yīng)的，交叉源可靠性的定義是通過(guò)與其他標(biāo)簽源學(xué)習(xí)的定位模型正確預(yù)測(cè)當(dāng)前源偽標(biāo)簽的可能性近似。因此，整個(gè)方法可以漸進(jìn)式地利用偽標(biāo)簽來(lái)學(xué)習(xí)易難課程范式中的定位模型，最大限度地利用不同源的偽標(biāo)簽，保證基礎(chǔ)模型的泛化能力。

在RefCOCO/+/g、RefitGame和Flickr30K Entities這五個(gè)主流測(cè)試基準(zhǔn)中，我們的模型在單源和多源場(chǎng)景下的性能都明顯優(yōu)于SOTA無(wú)監(jiān)督定位方法Pseudo-Q，分別達(dá)到6.78% ~ 10.67% 和11.39% ~ 14.87%。所提出的SSA算法和MSA算法的性能增益為3%以上。此外，我們的方法甚至優(yōu)于現(xiàn)有的弱監(jiān)督方法。與全監(jiān)督SOTA模型QRNet相比，我們僅使用其更新參數(shù)的7.7% 就獲得了相當(dāng)?shù)慕Y(jié)果，同時(shí)在訓(xùn)練和推理方面都獲得了顯著的加速，分別高達(dá)26.84倍和7.41倍。與最新報(bào)道的結(jié)果相比，我們的模型在速度和能效方面也達(dá)到了SOTA。綜上所述，本文的貢獻(xiàn)有四個(gè)方面:

據(jù)我們所知，我們是第一個(gè)使CLIP實(shí)現(xiàn)無(wú)監(jiān)督視覺(jué)定位的。我們的方法可以將CLIP的跨模態(tài)學(xué)習(xí)能力轉(zhuǎn)移到視覺(jué)定位上，而且訓(xùn)練成本很小。
我們是第一個(gè)在無(wú)監(jiān)督視覺(jué)定位中引入自步課程學(xué)習(xí)的方法。我們提出的可靠性評(píng)估和單源自步自適應(yīng)的方法可以通過(guò)在由易到難的學(xué)習(xí)范式中使用偽標(biāo)簽逐步增強(qiáng)基于CLIP的視覺(jué)定位模型。
我們首先提出了多源自步自適應(yīng)算法來(lái)擴(kuò)展了我們的方法，同時(shí)可以獲取多個(gè)偽標(biāo)簽源的信息，可以靈活地提高語(yǔ)言分類的多樣性。
我們進(jìn)行了大量的實(shí)驗(yàn)來(lái)評(píng)估我們方法的有效性。結(jié)果表明，我們的方法在無(wú)監(jiān)督環(huán)境下取得了顯著的改進(jìn)，同樣，我們的模型在全監(jiān)督環(huán)境下也具有一定的競(jìng)爭(zhēng)力。

圖2. 我們的CLIP-VG模型架構(gòu)(III-B部分)作為視覺(jué)語(yǔ)言定位模型來(lái)實(shí)現(xiàn)CLIP的自步度課程自適應(yīng)。

圖3。利用偽語(yǔ)言標(biāo)簽和自步課程學(xué)習(xí)實(shí)現(xiàn)無(wú)監(jiān)督視覺(jué)定位。(a)偽語(yǔ)言標(biāo)簽的例子(不同偽語(yǔ)言標(biāo)簽的來(lái)源在第IV-A節(jié)中進(jìn)行了描述)。(b)單源自步自適應(yīng)(Single-source self-paced Adapting, SSA)利用視覺(jué)語(yǔ)言定位模型(VLGM)對(duì)偽模板標(biāo)簽進(jìn)行可靠性評(píng)估和貪婪樣本選擇，通過(guò)尋找可靠的偽標(biāo)簽實(shí)現(xiàn)對(duì)CLIP更穩(wěn)定的自適應(yīng)遷移。(c)多源自適應(yīng)(Multi-source Self-paced Adapting, MSA)在SSA的基礎(chǔ)上進(jìn)一步提出了特定源可靠性(SR)和跨源可靠性(CR)。它依次進(jìn)行偽標(biāo)簽源選擇、可靠性評(píng)估器選擇和貪婪樣本選擇，從而達(dá)到可靠性和多樣性的最佳平衡。

表1. 在RefCOCO/+/g三個(gè)數(shù)據(jù)集上基于top-1精度的SOTA方法對(duì)比結(jié)果