91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

TextTopicNet模型:以自監(jiān)督學習方式學習區(qū)別視覺特征

8g3K_AI_Thinker ? 來源:未知 ? 作者:工程師郭婷 ? 2018-07-31 17:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大規(guī)模帶標注的數據集的出現是深度學習計算機視覺領域取得巨大成功的關鍵因素之一。然而,監(jiān)督式學習存在一個主要問題:過于依賴大規(guī)模數據集,而數據集的收集和手動數據標注需要耗費大量的人力成本。

作為替代方案,自監(jiān)督學習旨在通過設計輔助任務來學習可區(qū)別性的視覺特征,如此,目標標簽就能夠自由獲取。這些標簽能夠直接從訓練數據或圖像中獲得,并為計算機視覺模型的訓練提供監(jiān)督信息,這與監(jiān)督式學習的原理是相同的。但是不同于監(jiān)督式學習的是,自監(jiān)督學習方法通過挖掘數據的性質,從中學習并生成視覺特征的語義標簽信息。還有一類方法是弱監(jiān)督學習,這種學習方式能夠利用低水平的注釋信息來解決更復雜的計算機視覺任務,如利用自然場景下每張圖像的類別標簽進行目標檢測任務。

我們的目標是探索一種自監(jiān)督的解決方案,利用圖像和圖像之間的相關性來替代完全監(jiān)督式的 CNN訓練。此外,我們還將探索非結構化語言語義信息的強弱,并將其作為文本監(jiān)督信號來學習視覺特征。

我們擴展了之前提出的方法并展示了以自監(jiān)督的方式進行插圖文章的學習,這能夠進一步擴展到更大的訓練數據集(如整個英語維基百科)。

通過實驗,我們驗證了 TextTopicNet的表現優(yōu)于其他基準評估中的自監(jiān)督或自然監(jiān)督的方法。此外,我們還在更具挑戰(zhàn)性的 SUN397數據集上測試了我們的方法,結果表明 TextTopicNet能夠減少自監(jiān)督學習和監(jiān)督學習之間的性能差距。

我們展示了將上下文的文本表征用于模型的訓練,這能夠有助于網絡自動學習多模態(tài)的語義檢索。在圖像——文本的檢索任務中,TextTopicNet的表現超過了無監(jiān)督學習的方法,而與監(jiān)督學習的方法相比,我們的方法能夠在無需任何特定類別信息的情況下還能表現出有競爭力的性能。

在自監(jiān)督學習設置下,我們對不同的文本嵌入方法進行了對比分析,如word2vec,GloVe,FastText,doc2vec等。

此外,我們還公開發(fā)布了我們所收集的數據集,該數據集采自整個英語維基百科,由 420 萬個圖像組成,每張圖像都有對應的文字描述信息。

維基圖像——文本數據集

我們以維基百科作為數據的來源,這是一個基于網絡的多語言的百科全書項目,目前有 4000 多萬篇文章,含 299 種不同語言。維基百科文章通常由文字及其他多媒體類型的對象(如圖像,音頻或視頻文件)組成,因此可以將其視為多模態(tài)的文檔數據。對于我們的實驗,我們使用兩個不同的維基百科文章集合:(a) ImageCLEF 2010維基百科數據集;(b)我們所收集的英語維基百科圖像——文本數據集,包含 420 萬圖像文本對組成的數據,下圖1展示了 11 種類別的文章分布情況。

TextTopicNet模型:以自監(jiān)督學習方式學習區(qū)別視覺特征

圖1英語維基百科種11種類別的文章分布情況

TextTopicNet

我們提出了一種 TextTopicNet的方法,通過挖掘大規(guī)模多模態(tài)網絡文檔的大規(guī)模語料庫(如維基百科文章),以自監(jiān)督的方式來學習視覺特征。在自監(jiān)督學習設置下,TextTopicNet能夠使用免費可用的非結構化、多模態(tài)的內容來學習可區(qū)別的視覺特征,并在給定圖像的下,通過訓練 CNN來預測可能插圖的語義環(huán)境。我們的方法示意圖如下圖 2 所示,該方法采用一個文本嵌入算法來獲取文本部分的向量表征,然后將該表征作為 CNN視覺特征學習的一種監(jiān)督信號。我們進一步使用多種類別的文檔以及詞級(word-level)的文本嵌入方法,發(fā)現通過 LDA主題模型框架發(fā)現的隱藏語義結構,能夠在主題層面最佳地展現文本信息。

TextTopicNet模型:以自監(jiān)督學習方式學習區(qū)別視覺特征

圖2 方法概覽。維基百科文章包含一個主題的文本描述,這些文章同時也附有支持文本的插圖。文本嵌入框架能夠與文本信息相關的全局上下文表征。而整篇文章的這種文本表征向量被用于為 CNN的訓練提供自監(jiān)督信號

如圖 3 所示,作為主題層面的語義描述器,需要大量可用的關于特定類別或細粒度類別的視覺數據。雖然在我們收集的數據中,這類數據非常有限,但是這很容易在更廣泛的目標類別(如哺乳動物)中找到足夠多的、有代表性的圖像。因此,在給定的目標主題情況下,我們的方法能夠學習到期望的視覺特征,這種特征是通用的,即同樣適用于其他特定的計算機視覺任務。

圖 3 描述特定實體的維基百科文章。如 (a) 中“羚羊”或 (b) 中的“馬”,每個實體通常包含五張圖像。對于一些特定實體,如 (c)中的“食草哺乳動物”,相關的圖像很容易就達到數百或成千上萬張。

我們還訓練一個 CNN模型,它能夠直接將圖像投影到文本的語義空間,而 TextTopicNet不僅能夠在無需任何標注信息的情況下從頭開始學習數據的視覺特征,還可以以自然的方式進行多模態(tài)的檢索,而無需額外的注釋或學習成本。

實驗

我們通過大量的實驗來展示 TextTopicNet模型所學習到的視覺特征質量。衡量的標準是所習得的視覺特征具有足夠好的可區(qū)別性和魯棒性,并能進一步適用于那些未見過的類別數據。

首先,為了驗證圖像—文本對的自監(jiān)督學習,我們比較了各種文本嵌入方法。其次,我們在 PASCAL VOC 2007 數據集的圖像分類任務中對 TextTopicNet模型每層的特征進行基準分析,以找到了 LDA模型的最佳主題數量。然后,我們分別在 PASCAL、SUN397和 STL-10數據集的圖像分類和檢測任務中進一步與當前最佳的自監(jiān)督方法和無監(jiān)督方法進行了比較。最后,我們利用維基百科檢索數據集對我們的方法進行了圖像檢索和文本查詢實驗。

自監(jiān)督視覺特征學習的文本嵌入算法比較

在自監(jiān)督視覺特征學習的設置下,我們對 word2vec,GloVe,FastText,doc2vec及 LDA算法進行了比較分析。對于每種文本嵌入方法,我們都將訓練一個 CNN模型并利用網絡不同層獲得的特征信息去學習一個一對多的SVM (one-vs-all SVM)。下表1顯示了在 PASCAL VOC2007數據集中,使用不同文本嵌入方法,模型所展現的分類性能。我們觀察到在自監(jiān)督的視覺特征學習任務中,基于嵌入的 LDA方法展現了最佳全局表現。

表1:使用不同文本嵌入方法的 TextTopicNet模型在 PASCAL VOC2007數據集圖像分類任務上的性能表現(%mAP)

TextTopicNet模型:以自監(jiān)督學習方式學習區(qū)別視覺特征

LDA模型的超參數設置

我們用 ImageCLEF Wikipedia數據集上 35582 篇文章訓練了一個 LDA 模型,以確定 LDA模型的主題數量。下圖4展示了實驗結果,我們可以看到擁有 40 個主題數的 LDA模型能夠獲得最佳的 SVM驗證準確性。

TextTopicNet模型:以自監(jiān)督學習方式學習區(qū)別視覺特征

圖4隨著 LDA主題數量的變化,PASCAL VOC2007數據集上 One vs. Rest線性 SVM所取得的驗證準確性(%mAP)

圖像分類和圖像檢測

我們分別在 PASCAL、SUN397和 STL-10數據集進行圖像分類和檢測任務,比較并分析 TextTopicNet以及當前最佳的自監(jiān)督和無監(jiān)督模型的表現。下表 2、3和4 分別展示各模型在 PASCAL VOC 2007、SUN397和 STL-10數據集上的分類表現,表 5 展示了在 PASCAL VOC 2007數據集上模型的檢測性能。

表 2 PASCAL VOC2007數據集上各模型的分類表現(%mAP)

TextTopicNet模型:以自監(jiān)督學習方式學習區(qū)別視覺特征

表 3 SUN397數據集上各模型的分類表現(%mAP)

TextTopicNet模型:以自監(jiān)督學習方式學習區(qū)別視覺特征

表 4 STL-10數據集上各模型的分類表現(%mAP)

TextTopicNet模型:以自監(jiān)督學習方式學習區(qū)別視覺特征

表 5 PASCAL VOC 2007數據集上各模型的檢測表現(%mAP)

TextTopicNet模型:以自監(jiān)督學習方式學習區(qū)別視覺特征

圖像檢索和文本查詢

我們還在多模態(tài)檢索任務中評估所習得的自監(jiān)督視覺特征:(1)圖像查詢與文本數據庫; (2)文本查詢與圖像數據庫。我們使用維基百科檢索數據集,由2,866 個圖像文檔對組成,包含 2173 和 693 對訓練和測試數據。每個圖像--文本對數據都帶有其語義標簽。下表 6 展示了監(jiān)督和無監(jiān)督學習方法在多模態(tài)檢索任務中的表現,其中監(jiān)督學習的方法能夠利用與類別相關的每個圖像--文本對信息,而無監(jiān)督學習方法則不能。

表 8維基數據集上各監(jiān)督學習和無監(jiān)督學習方法的表現(%mAP)

TextTopicNet模型:以自監(jiān)督學習方式學習區(qū)別視覺特征

圖 4 顯示了與給定查詢圖像(最左側)最接近的 4 張圖像,其中每行使用的是 TextTopicNet模型不同層次獲得的特征,從上到下:prob,fc7,fc6,pool5層。這些查詢圖像是從 PASCAL VOC 2007中隨機選擇的,且從未在訓練時出現過。

圖4與查詢圖像(最左側)最相近的4張圖像

圖 5顯示了在 TextTopicNet主題空間中,與給定查詢文本最接近的 12 個查詢內容??梢钥吹剑瑢τ诘谝粭l查詢文本(“飛機”),所檢索到的圖像列表幾乎是其相同的同義詞,如“flight”,“airway”或“aircraft”。利用文本的語義信息,我們的方法能夠學習多義詞的圖像表示。此外,TextTopicNet模型還能夠處理語義文本查詢,如檢索(“飛機”+ “戰(zhàn)斗機”或“飛行”+“天空”)等。

圖 5與不同文本查詢最接近的12個查詢內容

結論

在本文中,我們提出了一種自監(jiān)督學習方法,用于學習 LDA模型的文本主題空間。該方法 TextTopicNet能夠在無監(jiān)督設置下,利用多模態(tài)數據的優(yōu)勢,學習并訓練計算機視覺算法。將文章插圖中的文字視為噪聲圖像標注信息,我們的方法能夠通過視覺特征的學習,訓練 CNN模型并預測在特定的上下文語義中最可能出現的插圖。

我們通過實驗證明我們方法的有效性,并可以擴展到更大、更多樣化的訓練數據集。此外,TextTopicNet模型學到了視覺特征不僅適用于廣泛的主題,而且還能將其應用到更具體、復雜的計算機視覺任務,如圖像分類,物體檢測和多模態(tài)檢索。與現有的自監(jiān)督或無監(jiān)督方法相比,我們方法的表現更優(yōu)。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 計算機
    +關注

    關注

    19

    文章

    7806

    瀏覽量

    93181
  • 視覺特征
    +關注

    關注

    0

    文章

    3

    瀏覽量

    5411

原文標題:CMU最新視覺特征自監(jiān)督學習模型——TextTopicNet

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    算法工程師需要具備哪些技能?

    :自動化任務(如數據預處理、模型訓練調度)。Git版本控制:團隊協(xié)作開發(fā)(如分支管理、代碼合并)。 機器學習監(jiān)督學習:線性回歸、邏輯回歸、決策樹、SVM等。無監(jiān)督學習:聚類(K-Mea
    發(fā)表于 02-27 10:53

    機器學習特征工程:分類變量的數值化處理方法

    編碼是機器學習流程里最容易被低估的環(huán)節(jié)之一,模型沒辦法直接處理文本形式的分類數據,尺寸(Small/Medium/Large)、顏色(Red/Blue/Green)、城市、支付方式等都是典型的分類
    的頭像 發(fā)表于 02-10 15:58 ?325次閱讀
    機器<b class='flag-5'>學習</b><b class='flag-5'>特征</b>工程:分類變量的數值化處理方法

    強化學習會讓自動駕駛模型學習更快嗎?

    是一種讓機器通過“試錯”學會決策的辦法。與監(jiān)督學習不同,監(jiān)督學習是有人提供示范答案,讓模型去模仿;而強化學習不會把每一步的“正確答案”都告訴你,而是把環(huán)境、動作和結果連起來,讓機器自己
    的頭像 發(fā)表于 01-31 09:34 ?639次閱讀
    強化<b class='flag-5'>學習</b>會讓自動駕駛<b class='flag-5'>模型</b><b class='flag-5'>學習</b>更快嗎?

    自動駕駛中常提的模仿學習是什么?

    當談及自動駕駛模型學習時,經常會提到模仿學習的概念。所謂模仿學習,就是模型先看別人怎么做,然后學著去做。自動駕駛中的模仿
    的頭像 發(fā)表于 01-16 16:41 ?1988次閱讀

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰(zhàn)課(11大系列課程,共5000+分鐘)

    、GPU加速訓練(可選) 雙軌教學:傳統(tǒng)視覺算法+深度學習方案全覆蓋 輕量化部署:8.6M超輕OCR模型,適合嵌入式設備集成 無監(jiān)督學習:無需缺陷樣本即可訓練高精度檢測
    發(fā)表于 12-04 09:28

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰(zhàn)課程(11大系列課程,共5000+分鐘)

    、GPU加速訓練(可選) 雙軌教學:傳統(tǒng)視覺算法+深度學習方案全覆蓋 輕量化部署:8.6M超輕OCR模型,適合嵌入式設備集成 無監(jiān)督學習:無需缺陷樣本即可訓練高精度檢測
    發(fā)表于 12-03 13:50

    如何深度學習機器視覺的應用場景

    深度學習視覺應用場景大全 工業(yè)制造領域 復雜缺陷檢測:處理傳統(tǒng)算法難以描述的非標準化缺陷模式 非標產品分類:對形狀、顏色、紋理多變的產品進行智能分類 外觀質量評估:基于學習的外觀質量標準判定 精密
    的頭像 發(fā)表于 11-27 10:19 ?218次閱讀

    自動駕駛中常提的“強化學習”是個啥?

    下,就是一個智能體在環(huán)境里行動,它能觀察到環(huán)境的一些信息,并做出一個動作,然后環(huán)境會給出一個反饋(獎勵或懲罰),智能體的目標是把長期得到的獎勵累積到最大。和監(jiān)督學習不同,強化學習沒有一一對應的“正確答案”給它看,而是靠與環(huán)境交互、自我探索來發(fā)現
    的頭像 發(fā)表于 10-23 09:00 ?658次閱讀
    自動駕駛中常提的“強化<b class='flag-5'>學習</b>”是個啥?

    如何在機器視覺中部署深度學習神經網絡

    人士而言往往難以理解,人們也常常誤以為需要扎實的編程技能才能真正掌握并合理使用這項技術。事實上,這種印象忽視了該技術為機器視覺(乃至生產自動化)帶來的潛力,因為深度學習并非只屬于計算機科學家或程序員。 從頭開始:什么
    的頭像 發(fā)表于 09-10 17:38 ?897次閱讀
    如何在機器<b class='flag-5'>視覺</b>中部署深度<b class='flag-5'>學習</b>神經網絡

    自動駕駛中Transformer大模型會取代深度學習嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領域的驚艷表現,“Transformer架構是否正在取代傳統(tǒng)深度學習”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?4181次閱讀
    自動駕駛中Transformer大<b class='flag-5'>模型</b>會取代深度<b class='flag-5'>學習</b>嗎?

    任正非說 AI已經確定是第四次工業(yè)革命 那么如何從容地加入進來呢?

    的基本理論。了解監(jiān)督學習、無監(jiān)督學習和強化學習的基本原理。例如,在監(jiān)督學習中,理解如何通過標注數據來訓練模型進行分類或回歸任務,像通過大量的
    發(fā)表于 07-08 17:44

    最新人工智能硬件培訓AI 基礎入門學習課程參考2025版(大模型篇)

    教育等領域發(fā)揮著越來越重要的作用。?針對日前前來咨詢的廣大客戶對面向大模型智能硬件的學習需求,我們根據CSK6大模型語音視覺開發(fā)板已有功能,整理了一份適合基于本開發(fā)板進行教學活動的
    發(fā)表于 07-04 11:10

    使用MATLAB進行無監(jiān)督學習

    監(jiān)督學習是一種根據未標注數據進行推斷的機器學習方法。無監(jiān)督學習旨在識別數據中隱藏的模式和關系,無需任何監(jiān)督或關于結果的先驗知識。
    的頭像 發(fā)表于 05-16 14:48 ?1433次閱讀
    使用MATLAB進行無<b class='flag-5'>監(jiān)督學習</b>

    十大鮮為人知卻功能強大的機器學習模型

    本文轉:QuantML當我們談論機器學習時,線性回歸、決策樹和神經網絡這些常見的算法往往占據了主導地位。然而,除了這些眾所周知的模型之外,還存在一些鮮為人知但功能強大的算法,它們能夠
    的頭像 發(fā)表于 04-02 14:10 ?1091次閱讀
    十大鮮為人知卻功能強大的機器<b class='flag-5'>學習</b><b class='flag-5'>模型</b>

    ?VLM(視覺語言模型)?詳細解析

    的詳細解析: 1. 核心組成與工作原理 視覺編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺Transformer(ViT)。 語言模型 :處理文本輸入/輸出,如GPT、BE
    的頭像 發(fā)表于 03-17 15:32 ?8802次閱讀
    ?VLM(<b class='flag-5'>視覺</b>語言<b class='flag-5'>模型</b>)?詳細解析