91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

文本預(yù)訓(xùn)練的模型架構(gòu)及相關(guān)數(shù)據(jù)集

深度學習自然語言處理 ? 來源:哈工大SCIR ? 作者:鐘蔚弘 ? 2022-07-01 11:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1.簡介

隨著預(yù)訓(xùn)練模型的發(fā)展,研究者也開始嘗試將預(yù)訓(xùn)練模型的架構(gòu)和方法應(yīng)用于多模態(tài)任務(wù)當中。在圖片-文本多模態(tài)任務(wù)當中,預(yù)訓(xùn)練模型的應(yīng)用已經(jīng)取得了出色的表現(xiàn)。相比于圖片,視頻內(nèi)容中包含的信息更加豐富而冗余,多幀之間可能包含高度相似的畫面。與圖片不同,視頻內(nèi)容中自然地包含了時序信息,隨著視頻時間長度的增長,其包含的時序信息也愈加豐富。同時,由于視頻數(shù)據(jù)的體積相較于圖片而言也更加龐大,數(shù)據(jù)集、模型的構(gòu)建都為研究者提出了更大的挑戰(zhàn)。因此,如何更優(yōu)雅,高質(zhì)量地建立視頻-文本表示之間的聯(lián)系、進行良好的交互,并為下游任務(wù)帶來提升,就成為了研究者們探究的問題。

本文簡單梳理了當前視頻-文本預(yù)訓(xùn)練的模型架構(gòu)及相關(guān)數(shù)據(jù)集,同時,針對視頻信息較為冗余的特點,對引入細粒度信息的工作進行了簡要介紹。

2. 常用預(yù)訓(xùn)練數(shù)據(jù)集

多模態(tài)預(yù)訓(xùn)練的數(shù)據(jù)通常來源于大規(guī)模的模態(tài)間對齊樣本對。由于時序維度的存在,視頻當中包含了比圖片更加豐富而冗余的信息。因此,收集大規(guī)模的視頻-文本對齊數(shù)據(jù)對用于視頻預(yù)訓(xùn)練存在較高的難度。目前,大部分研究者所使用的公開預(yù)訓(xùn)練數(shù)據(jù)集主要包括HowTo100M[1]和WebVid[2]數(shù)據(jù)集,此外,由于視頻和圖片特征的相似性,也有非常多工作利用圖片-文本預(yù)訓(xùn)練數(shù)據(jù)集進行訓(xùn)練,本節(jié)主要對視頻-文本預(yù)訓(xùn)練中常用的數(shù)據(jù)集進行簡單的介紹。

2.1 HowTo100M

學習視頻-文本的跨模態(tài)表示通常需要人工標注描述的的視頻片段(clip),而標注一個這樣的大規(guī)模數(shù)據(jù)集非常昂貴。Miech[1]等人發(fā)布了HowTo100M數(shù)據(jù)集,幫助模型從帶有自動轉(zhuǎn)寫的旁白文本(automatically transcribed narrations)的視頻數(shù)據(jù)中學習到跨模態(tài)的表示。HowTo100M從1.22M個帶有旁白的教學(instructional)網(wǎng)絡(luò)視頻中裁切得到了136M個視頻片段(clip)。視頻的教學內(nèi)容多由人類展示,包含了超過兩萬三千個不同的視覺任務(wù)。

133c29c8-f873-11ec-ba43-dac502259ad0.png

圖1 HowTo100M數(shù)據(jù)集概覽 研究者從WikiHow中檢索、抽取了23,611個與物理世界能夠產(chǎn)生一定交互的視覺任務(wù),并在YouTube中通過構(gòu)造關(guān)鍵詞搜索相關(guān)的視頻,保留包含英語字幕的視頻。英文字幕通過時間軸和具體的視頻Clip構(gòu)成視頻-文本對,例子如圖2所示。

135812e6-f873-11ec-ba43-dac502259ad0.png

圖2 數(shù)據(jù)集中視頻-文本對的例子 與之前的視頻-文本配對數(shù)據(jù)集不同,HowTo100M數(shù)據(jù)集中的描述并不是人工標注的,由于旁白的特性,其與對應(yīng)的視頻clip在時序上可能并未對齊,同時也可能并不是完整的句子。但該數(shù)據(jù)集的規(guī)模足夠龐大,為視頻-文本預(yù)訓(xùn)練的工作進一步提供了可能。 2.2 WebVid WebVid-2M[2]數(shù)據(jù)集包含了從網(wǎng)絡(luò)上爬取的2.5M視頻-文本數(shù)據(jù)對,與HowTo100M不同,WebVid中包含的視頻數(shù)據(jù)來自于通用領(lǐng)域。WebVid數(shù)據(jù)集的構(gòu)造方式和CC3M[3] 比較類似,研究者發(fā)現(xiàn)CC3M中超過10%的圖片事實上都是視頻的概覽,通過找到原視頻,研究者得以爬取2.5M的視頻-文本對。 圖3展示了數(shù)據(jù)集中的一些樣例,WebVid中的視頻描述風格多樣,包含精簡亦或細節(jié)性的描述。

137cfc28-f873-11ec-ba43-dac502259ad0.png

圖3 WebVid數(shù)據(jù)集的例子 表1列出了現(xiàn)有的部分視頻文本數(shù)據(jù)集的統(tǒng)計信息,相比于HowTo100M數(shù)據(jù)集,WebVid的規(guī)模僅有不到其1/10。但數(shù)據(jù)集中的文本通常是人工撰寫的描述,具有較好的句子結(jié)構(gòu),與視頻具有更好的匹配性,同時也避免了由于ASR撰寫帶來的語法錯誤。 表1 視頻-文本數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)[2]

13952b5e-f873-11ec-ba43-dac502259ad0.png

2.3 Conceptual Captions 視頻是由多幀靜態(tài)圖片組合而成,由于視頻資源收集的難度較大,研究人員也常使用大規(guī)模圖片文本數(shù)據(jù)集來擴大預(yù)訓(xùn)練數(shù)據(jù)的規(guī)模,增強模型的泛化性。Conceptual Captions[3] 由Google的研究人員于2018年發(fā)布,研究人員通過從數(shù)十億的網(wǎng)頁中提取、過濾得到了大規(guī)模的圖片-描述文本對。為了使圖片描述更加干凈易用,其基于描述文本和圖片自動生成了對應(yīng)的轉(zhuǎn)換描述,稱之為Conceptual Captions。數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)如表2所示。

表3 Conceptual Captions的統(tǒng)計數(shù)據(jù)[3]

13a64f2e-f873-11ec-ba43-dac502259ad0.png

3. 模型架構(gòu) 視頻-文本預(yù)訓(xùn)練模型涉及到對視頻、文本的編碼和處理,通??梢源致缘胤譃閱瘟?Single-Stream)架構(gòu)和多流(Multi-Stream)架構(gòu)。對于Single-Stream架構(gòu)的模型,不同模態(tài)的特征/表示被輸入到一個單獨的跨模態(tài)編碼器中,捕捉他們的模態(tài)內(nèi)/間交互信息。而對于Multi-Stream架構(gòu),視頻、文本將被輸入到各自模態(tài)獨立的編碼器中,捕捉模態(tài)內(nèi)部的表示信息,再通過不同的方式建立跨模態(tài)的聯(lián)系。本節(jié)將對不同架構(gòu)的模型進行簡單介紹,對于引入更細粒度信息的模型,我們將在后面的章節(jié)進行介紹。 3.1 Single-Stream 3.1.1VideoBERT VideoBERT[4]是第一個利用Transformer架構(gòu)探究視頻-文本表示的預(yù)訓(xùn)練模型。從BERT[5]中獲得啟發(fā),研究人員嘗試將視頻內(nèi)容進行量化,對于視頻Clip進行編碼,聚類,從中抽取得到離散的表示,稱之為視覺詞語(video words),對于每一個視頻,其都可以由多個視覺詞語進行表示,并能夠和文本一同輸入到編碼器中進行聯(lián)合的表示學習,其架構(gòu)如圖4所示。

13bb8d1c-f873-11ec-ba43-dac502259ad0.png

圖4 VideoBERT模型架構(gòu)[4] 與BERT相似,VideoBERT引入了文本、視頻兩個模態(tài)的掩碼完型任務(wù)(mask-completion),具體而言,就是利用上下文和跨模態(tài)信息恢復(fù)被[MASK]標簽遮蓋的視頻/文本token。同時,為了建??缒B(tài)之間的關(guān)聯(lián)性,VideoBERT也利用[CLS]標簽位置的編碼判斷視頻和文本之間是否時序/語義對齊。 3.1.2 ClipBERT 前人工作通常使用在不同領(lǐng)域預(yù)訓(xùn)練的視頻編碼器抽取得到的密集(dense)視頻特征,ClipBERT[6] 利用了視頻和圖片之間的相似性,通過對視頻進行稀疏(sparse)采樣的方式對其進行編碼,并實現(xiàn)了端到端的預(yù)訓(xùn)練。 具體而言,研究人員隨機采取多個視頻片段(Clip),對于每個視頻片段進行稀疏采樣,以視頻幀為單位進行編碼得到表示;對于不同Clip不同幀的表示,可以進行時空上的信息融合,得到的表示將和文本編碼共同輸入到Transformer架構(gòu)的編碼器當中,如圖5所示。以視頻幀為單位進行編碼,使得模型能夠僅利用圖片-文本數(shù)據(jù)集進行預(yù)訓(xùn)練(將圖片看作只有一幀的視頻),再在下游任務(wù)上利用視頻進行訓(xùn)練。在預(yù)訓(xùn)練階段,模型僅僅采用掩碼語言建模,以及利用[CLS]標簽進行視覺-文本匹配,來學習跨模態(tài)的表示。

13cf2c8c-f873-11ec-ba43-dac502259ad0.png

圖5 ClipBERT架構(gòu)[6] 3.1.3 VLM VLM[7]提出了一個簡單、下游任務(wù)無關(guān)的預(yù)訓(xùn)練方法,統(tǒng)一了視頻、文本的表示,能夠接受視頻、文本的單模態(tài)輸入,亦或視頻-文本的聯(lián)合輸入。如圖6所示,模型引入了掩碼表示建模(視頻幀或者文本token)來建立模態(tài)內(nèi)部的表示;同時引入掩碼模態(tài)建模任務(wù)(MMM),一次性遮蓋整個視頻或整個文本模態(tài),指導(dǎo)模型利用跨模態(tài)交互來恢復(fù)信息。

13f948be-f873-11ec-ba43-dac502259ad0.png

圖6 VLM的預(yù)訓(xùn)練范式[7] 3.2Multi-Stream 3.2.1 CBT CBT[8]提出通過有噪對比估計(noise contrastive estimation, NCE)來學習視頻-文本的表示。CBT拓展了BERT的架構(gòu)來建立跨模態(tài)的表示,在預(yù)訓(xùn)練階段,兩個單模態(tài)的Transformer分別被用于學習視頻和文本的表示,并利用一個跨模態(tài)Transformer來建立兩個模態(tài)的聯(lián)合表示。由于視頻特征是連續(xù)的,對于視頻的單模態(tài)編碼器和跨模態(tài)編碼器,模型通過有噪對比估計來學習其表示。具體而言,對于單模態(tài)視頻編碼器,其損失函數(shù)具有如下的形式:

142347a4-f873-11ec-ba43-dac502259ad0.png

?

1431d1fc-f873-11ec-ba43-dac502259ad0.png

其中 是 3D 編碼器的編碼輸出,而 是視頻 Transformer 的編碼輸出。而對于跨模態(tài) Transformer 的聯(lián)合表示,其損失函數(shù)具有如下的形式:

14428a10-f873-11ec-ba43-dac502259ad0.png

其中MI(x,y)代表將視頻,文本模態(tài)進行聯(lián)合編碼之后得到的聯(lián)合隱層表示輸出。

14518bbe-f873-11ec-ba43-dac502259ad0.png

圖7:CBT模型的架構(gòu)[8] 3.2.2 UniVL 大多數(shù)跨模態(tài)模型僅僅應(yīng)用于下游的多模態(tài)理解任務(wù),并未過多探索跨模態(tài)的生成任務(wù)。UniVL[9]建立了一個支持生成任務(wù)和理解任務(wù)的多模態(tài)框架。其架構(gòu)大致如圖8所示,UniVL將單模態(tài)編碼器編碼后的隱向量,輸入到一個跨模態(tài)的編碼器-解碼器架構(gòu)當中。通過NCE建立跨模態(tài)之間的相似性,使得同一個視頻-文本對,其不同模態(tài)編碼器編碼之后的結(jié)果在表示上具有較好的相關(guān)性;同時通過跨模態(tài)的掩碼語言建模和掩碼幀建模來建立跨模態(tài)的交互。同時,利用解碼器進行文本重建,為模型引入跨模態(tài)的生成能力。編碼器-解碼器架構(gòu)的引入使得模型能夠自然地應(yīng)用到下游的描述生成任務(wù)當中。

146b9aae-f873-11ec-ba43-dac502259ad0.png

圖8 UniVL的框架、預(yù)訓(xùn)練任務(wù)和下游任務(wù)的應(yīng)用[9] 3.2.2 Frozen Fronzen[2]提出了一個專為檢索任務(wù)設(shè)計的預(yù)訓(xùn)練框架。將圖片看作視頻的“快照”,將圖文數(shù)據(jù)集作為視頻數(shù)據(jù)集的一部分進行預(yù)訓(xùn)練,利用圖文數(shù)據(jù)集增大了預(yù)訓(xùn)練的規(guī)模,同時利用視頻-文本數(shù)據(jù)集學習關(guān)注視頻內(nèi)容中獨有的時序信息。為了高效地進行跨模態(tài)檢索,作者利用單模態(tài)的編碼器編碼兩個模態(tài)的信息,并將兩個模態(tài)的信息分別投影至一個共同的表示空間,計算其相似度。其架構(gòu)大致如圖9所示。視頻以幀為單位進行輸入,而圖片則相當于僅包含一幀的視頻,同時,模型也引入了space-time transformer[10]來建模視頻中的時空信息。在預(yù)訓(xùn)練階段,NCE同樣被用作衡量訓(xùn)練的損失,模型交替利用視頻數(shù)據(jù)和文本數(shù)據(jù)進行預(yù)訓(xùn)練。

147e4f3c-f873-11ec-ba43-dac502259ad0.png

圖9 Frozen的模型架構(gòu)[2] 4. 預(yù)訓(xùn)練中的細粒度信息 相比于圖片,視頻中包含的信息通常較為豐富而冗余,例如,在連續(xù)的幀之間,動作、場景等內(nèi)容可能高度相似?;诿芗蓸拥姆椒▽O大增加計算量,而基于稀疏采樣的方式又會損失過多細粒度信息。如何從視頻內(nèi)容中提取理解視頻所需要的細粒度信息,并加以利用,增強對視頻內(nèi)容的理解和跨模態(tài)表示的學習,也成為研究者所探究的問題之一。 4.1 基于時空信息 與圖片相比,視頻內(nèi)容中包含更加豐富的時序信息和空間信息,建模視頻中的時空信息,對理解視頻內(nèi)容具有十分重要的作用。 4.1.1 HERO 較少工作顯式地探究模型對視頻時序信息的理解。HERO[11]在單流跨模態(tài)Transformer的架構(gòu)之上,引入了一個時序Transformer來建模視頻中的時序信息,同時利用掩碼幀預(yù)測(MFM)和幀順序預(yù)測(FOM)來增強模型對視頻中時序信息的理解。具體而言,MFM任務(wù)要求模型通過文本信息和視頻上下文來恢復(fù)當前幀的內(nèi)容(通過回歸或者有噪對比估計NCE的形式);FOM則將跨模態(tài)編碼后的幀信息按比例進行打亂,要求時序Transformer架構(gòu)嘗試利用視頻上下文和按時序排列的字幕(subtitle)信息恢復(fù)被打亂的幀的順序,如圖10所示。

148c7b52-f873-11ec-ba43-dac502259ad0.png

圖10 HERO的模型架構(gòu)[11] 4.1.2Merlot 包含密集視頻描述(Dense caption)的視頻內(nèi)容通常包括豐富的跨模態(tài)時序?qū)R信息,Merlot[12]通過視頻幀-描述匹配(Contrastive frame-transcript matching)來建模視頻內(nèi)部的時序信息。Merlot的輸入是稀疏采樣的視頻幀,和視頻幀對應(yīng)的描述,模型通過最大化視頻幀和對應(yīng)描述的相似度,最小化和視頻內(nèi)其他幀視頻描述相似度來建立視頻和文本之間的時序?qū)R信息;與HERO不同,Merlot利用時序重排序(Temporal Reordering)任務(wù),按比例打亂視頻幀的順序,并判斷幀之間的相對順序來指導(dǎo)模型關(guān)注視頻內(nèi)部的時序信息。

14a3454e-f873-11ec-ba43-dac502259ad0.png

圖11 Merlot模型的架構(gòu)[12] 4.1.3 DECEMBERT HowTo100M數(shù)據(jù)集中的對齊文本通常來自于自動語音識別(ASR),包含較多噪聲,而人類可能還會描述已經(jīng)發(fā)生或者還未發(fā)聲的場景,導(dǎo)致文本和視頻片段的時序上并未完全對齊,或語義不一致。如圖12所示,DECEMBERT[13]從視頻Clip中抽重新取了較為密集的caption來緩解噪聲和語義不一致的問題;同時引入視頻片段上下文的文本描述,來緩解可能產(chǎn)生的時序不一致問題。

14b4b8b0-f873-11ec-ba43-dac502259ad0.png

圖12 DECEMBERT的架構(gòu)[13] 4.1.4 Violet 許多工作將視頻看作是靜態(tài)圖片的集合,忽略了時序上信息具有一定的連續(xù)性,基于此特點設(shè)計的視覺掩碼任務(wù)可能會失效。Violet[14]利用Discrete VAE[22]將視頻的patch特征離散化為一系列視覺token,視頻編碼和文本編碼聯(lián)合輸入跨模態(tài)Transformer后,掩碼視覺token建模任務(wù)要求模型從視覺掩碼輸出中恢復(fù)對應(yīng)的離散視覺token,與掩碼語言建模任務(wù)得到了統(tǒng)一。同時,模型引入了基于塊(Block wise)的離散視覺掩碼任務(wù),基于時間、空間同時掩碼多個連續(xù)位置,防止其簡單地從時空連續(xù)的位置恢復(fù)被掩碼的信息。此外,一般的掩碼方法以同樣的概率遮蓋重要/不重要的位置,Violet引入了Attended Masking的方法,利用跨模態(tài)的注意力權(quán)重,嘗試遮蓋模型認為更重要的區(qū)域,以提升掩碼任務(wù)的難度。

14d451f2-f873-11ec-ba43-dac502259ad0.png

圖13 Violet模型架構(gòu)[14] 4.2 基于實體和動作 基于patch或者視頻級特征的編碼方式隱式地編碼了視頻中的各類信息,粗粒度的視頻-文本對齊方式可能難以挖掘視頻中包含的細粒度信息。下面的一些工作也嘗試引入了實體和動作等更細粒度的監(jiān)督信息,增強跨模態(tài)的表示學習和建模。 4.2.1 ActBERT

14e7ee06-f873-11ec-ba43-dac502259ad0.png

圖14 ActBERT的模型架構(gòu)[15] 將視頻離散化,與文本共同輸入Transformer進行跨模態(tài)聯(lián)合建模的方式可能會丟失很多細粒度的信息,ActBERT[15]通過在預(yù)訓(xùn)練數(shù)據(jù)集上訓(xùn)練一個視頻動作編碼器,獲得視頻的動作編碼,同時引入目標檢測工具來獲得視頻內(nèi)容中的物體信息編碼。通過建立文本-動作-視頻區(qū)域間的糾纏編碼架構(gòu),來建立視頻動作和區(qū)域信息與文本信息之間的交互,進而也保留了重要的時序信息。 4.2.2 OA-Trans Multi-Stream跨模態(tài)表示學習通常建立視頻-文本之間的整體對齊,并未探究更細粒度的對齊,OA-Trans[16]引入了對關(guān)鍵幀目標檢測得到的實體區(qū)域信息和對應(yīng)的標簽。如圖15所示,模型將關(guān)鍵幀中不包含實體區(qū)域的位置進行掩碼,經(jīng)過時空編碼得到剩余位置對應(yīng)的表示,同時將實體區(qū)域的類別信息輸入文本編碼器進行編碼。簡單將獲得的細粒度表示進行對齊,將對下游任務(wù)沒有太多幫助。在不修改模型架構(gòu)的前提下,研究者嘗試建立單模態(tài)細粒度表示和另一個模態(tài)整體表示之間的相似度聯(lián)系,指導(dǎo)單模態(tài)的整體表示能夠蘊含更多細粒度的信息,在應(yīng)用于下游任務(wù)時,預(yù)訓(xùn)練所用的細粒度表示可以被去除,而單模態(tài)的整體表示已經(jīng)一定程度上具備保留細粒度信息的能力。

14fcbf66-f873-11ec-ba43-dac502259ad0.png

圖15 OA-Trans的模型架構(gòu)[16] 4.2.3 ALPRO 引入細粒度的信息通常需要借助外部的特征抽取工具,這種做法不僅影響效率,由于特征抽取工具的類別數(shù)量等限制,效果也不盡如人意。如圖16所示,ALPRO[17]基于CLIP[18]的思想,首先基于視頻-文本對訓(xùn)練了一個視頻-文本匹配架構(gòu)(和ALRP的單模態(tài)編碼器具有相同的架構(gòu)),通過提示描述*[CLS] A video of a [object]*,根據(jù)視頻和描述的相似度,能夠識別出視頻中包含的實體。在訓(xùn)練過程中,模型隨機裁剪一段視頻,利用匹配架構(gòu)獲得視頻的實體信息作為監(jiān)督信號,引入提示實體匹配(Prompt Entity Matching)任務(wù),要求跨模態(tài)編碼器能夠識別出對應(yīng)裁剪位置的實體信息,以此建立視頻對細粒度實體信息和場景的理解。

151105ca-f873-11ec-ba43-dac502259ad0.png

圖16 ALPRO的模型架構(gòu)[17] 4.2.4 BridgeFormer 相比于利用物體檢測的信息,BridgeFormer[19]利用多項選擇任務(wù)(Multiple Choice Questions)來增強模型對視頻中實體新信息和動作信息的理解。具體而言,研究人員從原始文本中遮蓋動詞或名詞短語來構(gòu)建“問題”,將文本編碼器得到的問題表示作為跨模態(tài)Transformer的查詢(Query),將視頻內(nèi)容編碼表示作為鍵(Key)和鍵值(Value),即將跨模態(tài)表示問題形式化為了給定問題,從視頻中進行查詢,獲得答案的過程,在應(yīng)用于下游任務(wù)時,單模態(tài)編碼器已經(jīng)學習如何建立到了細粒度的表示跨模態(tài)模塊可以被去除。

153d9702-f873-11ec-ba43-dac502259ad0.png

圖17 BridgeFormer的模型架構(gòu)[19] 4.3 隱式細粒度特征 相比于考慮顯式的細粒度特征,如時序、實體、動作等信息,也有部分工作認為除了視頻、文本的整體表示,還可以考慮幀、patch級別的不同粒度表示,來隱式編碼細粒度特征。 4.3.1 HiT 在Transformer架構(gòu)中,不同的層將聚焦于不同粒度的表示信息, 例如較低層的注意力記住傾向于編碼更加基礎(chǔ)表面的表示,而更高層的注意力機制,將會捕捉更加復(fù)雜的語義信息,基于這樣的想法,HiT[20]提出了分層跨模態(tài)的對比匹配機制,來建立不同粒度的跨模態(tài)表示對齊,具體而言,模型分別從視頻、文本Query編碼器的第一層和最后一層獲得低層次特征級別和高層次語義級別的表示。并分別與另一模態(tài)的高層次編碼結(jié)果進行表示匹配,如圖18所示。

155b87da-f873-11ec-ba43-dac502259ad0.png

圖18 HiT的模型架構(gòu)[20] 4.3.2 HunYuan_tvr 大部分的檢索模型都聚焦于建立視頻整體和整個對應(yīng)文本之間的表示關(guān)系,HunYuan_tvr[21]從多個層次探究了細粒度表示的關(guān)系,通過建模幀-詞語,視頻片段-短語,視頻-句子三個不同粒度跨模態(tài)表示之間的表示匹配,提出了層次化的跨模態(tài)交互方法來學習細粒度的跨模態(tài)聯(lián)系,大致如圖19所示。

156bc4c4-f873-11ec-ba43-dac502259ad0.png

圖19:HunYuan_tvr的大致模型架構(gòu)[21] 5. 總結(jié) 本文簡單梳理了當前視頻-文本預(yù)訓(xùn)練的模型架構(gòu)及相關(guān)數(shù)據(jù)集,同時,針對視頻信息較為冗余的特點,對引入細粒度信息的工作進行了介紹。 經(jīng)過梳理和分析我們可以發(fā)現(xiàn),目前視頻-文本預(yù)訓(xùn)練的數(shù)據(jù)集由于收集和標注的難度較大,可用的數(shù)據(jù)集數(shù)量和規(guī)模和圖-文預(yù)訓(xùn)練相比仍然較少,同時也缺乏更加細粒度的標注。 而為了減少對計算資源的依賴,同時更好地利用圖片-文本預(yù)訓(xùn)練數(shù)據(jù),視頻-文本預(yù)訓(xùn)練模型從密集采樣逐漸向稀疏采樣過渡,為了彌補稀疏采樣帶來的信息損失和粗粒度預(yù)訓(xùn)練數(shù)據(jù)的監(jiān)督信息缺乏,不少工作也開始探索如何抽取、或者通過無監(jiān)督的方式來獲得有用的細粒度信息,進一步增強細粒度的視頻-文本表示學習。在未來,構(gòu)建更大規(guī)模、更細粒度的視頻-文本預(yù)訓(xùn)練數(shù)據(jù);考慮更加合理有用的細粒度信息為訓(xùn)練過程提供幫助;設(shè)計、利用更強大的單模態(tài)、跨模態(tài)模型架構(gòu)和自監(jiān)督學習任務(wù)都是值得進一步探索的方向。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3752

    瀏覽量

    52111
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26196
  • 文本
    +關(guān)注

    關(guān)注

    0

    文章

    120

    瀏覽量

    17867

原文標題:視頻文本預(yù)訓(xùn)練簡述

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的一類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數(shù)據(jù)(如書籍、網(wǎng)頁、文章等)進行預(yù)訓(xùn)練,學會語
    的頭像 發(fā)表于 02-02 16:36 ?899次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    模型。 我們使用MNIST數(shù)據(jù),訓(xùn)練一個卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,用于手寫數(shù)字識別。一旦模型
    發(fā)表于 10-22 07:03

    NVIDIA推出多語種語音AI開放數(shù)據(jù)模型

    新發(fā)布的 Granary 數(shù)據(jù)包含約 100 萬小時音頻,可用于訓(xùn)練高精度、高吞吐量的 AI 音頻轉(zhuǎn)錄與翻譯模型。
    的頭像 發(fā)表于 09-23 15:34 ?958次閱讀

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    近年來,機器人操作領(lǐng)域的VLA模型普遍基于跨本體機器人數(shù)據(jù)預(yù)訓(xùn)練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導(dǎo)致統(tǒng)一
    的頭像 發(fā)表于 08-21 09:56 ?1102次閱讀
    基于大規(guī)模人類操作<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    訓(xùn)練平臺數(shù)據(jù)過大無法下載數(shù)據(jù)至本地怎么解決?

    起因是現(xiàn)在平臺限制了圖片數(shù)量,想要本地訓(xùn)練下載數(shù)據(jù)時發(fā)現(xiàn)只會跳出網(wǎng)絡(luò)異常的錯誤,請問這有什么解決辦法?
    發(fā)表于 07-22 06:03

    龍芯中科與文心系列模型開展深度技術(shù)合作

    ”解決方案。 強強聯(lián)合!自主架構(gòu)賦能大模型訓(xùn)練 文心大模型 文心4.5系列模型均使用飛槳深度學習框架進行高效
    的頭像 發(fā)表于 07-02 16:53 ?1351次閱讀

    數(shù)據(jù)下載失敗的原因?

    數(shù)據(jù)下載失敗什么原因太大了嗎,小的可以下載,想把大的下載去本地訓(xùn)練報錯網(wǎng)絡(luò)錯誤 大的數(shù)據(jù)多大?數(shù)據(jù)
    發(fā)表于 06-18 07:04

    海思SD3403邊緣計算AI數(shù)據(jù)訓(xùn)練概述

    模型,將模型轉(zhuǎn)化為嵌入式AI模型,模型升級AI攝像機,進行AI識別應(yīng)用。 AI訓(xùn)練模型是不斷迭
    發(fā)表于 04-28 11:11

    AI原生架構(gòu)升級:RAKsmart服務(wù)器在超大規(guī)模模型訓(xùn)練中的算力突破

    近年來,隨著千億級參數(shù)模型的崛起,AI訓(xùn)練對算力的需求呈現(xiàn)指數(shù)級增長。傳統(tǒng)服務(wù)器架構(gòu)在應(yīng)對分布式訓(xùn)練、高并發(fā)計算和顯存優(yōu)化等場景時逐漸顯露瓶頸。而RAKsmart為超大規(guī)模
    的頭像 發(fā)表于 04-24 09:27 ?791次閱讀

    請問如何在imx8mplus上部署和運行YOLOv5訓(xùn)練模型

    我正在從事 imx8mplus yocto 項目。我已經(jīng)在自定義數(shù)據(jù)上的 YOLOv5 上訓(xùn)練了對象檢測模型。它在 ubuntu 電腦上運行良好?,F(xiàn)在我想在我的 imx8mplus
    發(fā)表于 03-25 07:23

    用PaddleNLP為GPT-2模型制作FineWeb二進制預(yù)訓(xùn)練數(shù)據(jù)

    ,使用PaddleNLP將FineWeb數(shù)據(jù)集中文本形式的數(shù)據(jù),經(jīng)過分詞化(Tokenize),轉(zhuǎn)換為大語言模型能直接使用的二進制數(shù)據(jù),以便
    的頭像 發(fā)表于 03-21 18:24 ?4315次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>

    數(shù)據(jù)標注服務(wù)—奠定大模型訓(xùn)練數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓(xùn)練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,
    的頭像 發(fā)表于 03-21 10:30 ?3297次閱讀

    標貝數(shù)據(jù)標注服務(wù):奠定大模型訓(xùn)練數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓(xùn)練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,
    的頭像 發(fā)表于 03-21 10:27 ?1111次閱讀
    標貝<b class='flag-5'>數(shù)據(jù)</b>標注服務(wù):奠定大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>的<b class='flag-5'>數(shù)據(jù)</b>基石

    自動化標注技術(shù)推動AI數(shù)據(jù)訓(xùn)練革新

    標貝自動化數(shù)據(jù)標注平臺在全棧數(shù)據(jù)標注場景式中搭載了大模型預(yù)標注和自動化標注能力,并應(yīng)用于3D點云、2D圖像、音頻、文本
    的頭像 發(fā)表于 03-14 16:46 ?1359次閱讀

    《AI Agent 應(yīng)用與項目實戰(zhàn)》閱讀心得3——RAG架構(gòu)與部署本地知識庫

    的片段,再利用預(yù)訓(xùn)練模型進行向量化,建立高效的檢索索引。在檢索階段,系統(tǒng)計算查詢與文檔片段的向量相似度,篩選出最相關(guān)的內(nèi)容。這些內(nèi)容會通過注入提示的方式提供給LLM,指導(dǎo)其生成準確且符
    發(fā)表于 03-07 19:49