91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟亞研提出VL-BERT,現(xiàn)取得了當(dāng)前單模型的最好效果

JqWP_youuav ? 來(lái)源:陳年麗 ? 2019-09-03 15:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

機(jī)器之心發(fā)布

來(lái)自中科大、微軟亞研院的研究者們提出了一種新型的通用視覺(jué)-語(yǔ)言預(yù)訓(xùn)練模型(Visual-Linguistic BERT,簡(jiǎn)稱 VL-BERT),該模型采用簡(jiǎn)單而強(qiáng)大的 Transformer 模型作為主干網(wǎng)絡(luò),并將其輸入擴(kuò)展為同時(shí)包含視覺(jué)與語(yǔ)言輸入的多模態(tài)形式,適用于絕大多數(shù)視覺(jué)-語(yǔ)言下游任務(wù)。

為了讓 VL-BERT 模型利用更為通用的特征表示,作者在大規(guī)模圖片描述生成數(shù)據(jù)集 ConceptualCaptions 中進(jìn)行 VL-BERT 的預(yù)訓(xùn)練,實(shí)驗(yàn)證明此預(yù)訓(xùn)練過(guò)程可以顯著提高下游的視覺(jué)-語(yǔ)言任務(wù)的效果,包含視覺(jué)常識(shí)推理、視覺(jué)問(wèn)答與引用表達(dá)式理解等。值得一提的是,在視覺(jué)常識(shí)推理排行榜中,VL-BERT 取得了當(dāng)前單模型的最好效果。

適用于下游任務(wù)的通用特征表示預(yù)訓(xùn)練是深度網(wǎng)絡(luò)成功的標(biāo)志之一。在計(jì)算機(jī)視覺(jué)領(lǐng)域,深度網(wǎng)絡(luò)在 ImageNet 數(shù)據(jù)集進(jìn)行圖像分類的預(yù)訓(xùn)練過(guò)程,被發(fā)現(xiàn)可廣泛提高多種圖像識(shí)別任務(wù)的效果。在自然語(yǔ)言處理領(lǐng)域中,Transformer 模型在大規(guī)模語(yǔ)料庫(kù)中使用語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練的過(guò)程,也被證明可廣泛提高多種自然語(yǔ)言處理任務(wù)的效果。

但對(duì)于計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域交叉的任務(wù),例如圖像標(biāo)題生成、視覺(jué)問(wèn)答、視覺(jué)常識(shí)推理等,缺少這種預(yù)訓(xùn)練的通用多模態(tài)特征表示。

一般來(lái)說(shuō),之前的視覺(jué)-語(yǔ)言模型分別使用計(jì)算機(jī)視覺(jué)或自然語(yǔ)言處理領(lǐng)域中的預(yù)訓(xùn)練模型進(jìn)行初始化,但如果目標(biāo)任務(wù)數(shù)據(jù)量不足,模型容易過(guò)擬合從而損失性能。并且對(duì)于不同的視覺(jué)-語(yǔ)言任務(wù),其網(wǎng)絡(luò)架構(gòu)一般是經(jīng)過(guò)特殊設(shè)計(jì)的,由此很難通過(guò)視覺(jué)-語(yǔ)言聯(lián)合預(yù)訓(xùn)練的過(guò)程幫助下游任務(wù)。

由此,在本文中,提出了一種可廣泛應(yīng)用于視覺(jué)-語(yǔ)言任務(wù)的預(yù)訓(xùn)練通用特征表示,稱為 Visual-LinguisitcBERT,簡(jiǎn)稱 VL-BERT,其架構(gòu)如下圖所示:

VL-BERT 的主干網(wǎng)絡(luò)使用 TransformerAttention 模塊,并將視覺(jué)與語(yǔ)言嵌入特征作為輸入,其中輸入的每個(gè)元素是來(lái)自句子中的單詞、或圖像中的感興趣區(qū)域(Region of Interests,簡(jiǎn)稱 RoIs)。在模型訓(xùn)練的過(guò)程中,每個(gè)元素均可以根據(jù)其內(nèi)容、位置、類別等信息自適應(yīng)地聚合來(lái)自所有其他元素的信息。在堆疊多層 TransformerAttention 模塊后,其特征表示即具有更為豐富的聚合與對(duì)齊視覺(jué)和語(yǔ)言線索的能力。

為了更好地建模通用的視覺(jué)-語(yǔ)言表示,在大規(guī)模視覺(jué)-語(yǔ)言語(yǔ)料庫(kù)中對(duì) VL-BERT 進(jìn)行了預(yù)訓(xùn)練。采用的預(yù)訓(xùn)練數(shù)據(jù)集為圖像標(biāo)題生成數(shù)據(jù)集,Conceptual Captions,其中包含了大約 330 萬(wàn)個(gè)圖像標(biāo)題對(duì)。

VL-BERT 的預(yù)訓(xùn)練主要采用三個(gè)任務(wù):a) 屏蔽語(yǔ)言模型(Masked Language Modeling),即隨機(jī)屏蔽掉語(yǔ)句中的一些詞,并預(yù)測(cè)當(dāng)前位置的詞是什么;b) 屏蔽 RoI 分類(MaskedRoIClassification),即隨機(jī)屏蔽掉視覺(jué)輸入中的一些 RoIs,并預(yù)測(cè)此空間位置對(duì)應(yīng) RoI 的所屬類別;c) 圖像標(biāo)題關(guān)聯(lián)預(yù)測(cè)(Sentence-Image Relationship Prediction),即預(yù)測(cè)圖像與標(biāo)題是否屬于同一對(duì)。

在預(yù)訓(xùn)練結(jié)束后,使用微調(diào)來(lái)進(jìn)行下游任務(wù)的訓(xùn)練。本文中主要在三個(gè)視覺(jué)-語(yǔ)言下游任務(wù)中進(jìn)行微調(diào),即視覺(jué)常識(shí)推理(VisualCommonsenseReasoning)、視覺(jué)問(wèn)答(VisualQuestionAnswering)與引用表達(dá)式理解(ReferringExpressionComprehension),下面將分別介紹。

視覺(jué)常識(shí)推理任務(wù)即給定圖片與相關(guān)問(wèn)題,機(jī)器不僅需要回答問(wèn)題,還需要提供理由來(lái)證明答案的正確性。此任務(wù)(Q-》AR)被分解為兩個(gè)子任務(wù),即視覺(jué)問(wèn)答(Q-》A,給定圖片與問(wèn)題,輸出正確答案),以及視覺(jué)推理(QA-》R,給定圖片、問(wèn)題與答案,輸出正確的理由)。

下面以視覺(jué)問(wèn)答子任務(wù)為例,此任務(wù)的輸入為問(wèn)題、答案與圖像的 RoIs,并預(yù)測(cè)此答案是否為正確答案。除此之外,作者發(fā)現(xiàn)微調(diào)時(shí)增加與預(yù)訓(xùn)練類似的 RoI 分類損失也會(huì)進(jìn)一步提升性能,如下:

視覺(jué)問(wèn)答任務(wù)即給定圖片,回答與圖片輸入相關(guān)的問(wèn)題。由此模型的輸入即為問(wèn)題與圖像,基本元素為單詞或 RoI,最終對(duì)答案進(jìn)行預(yù)測(cè),如下:

引用表達(dá)式理解任務(wù)是使用給定的引用表達(dá)式來(lái)定位圖像中的相關(guān)對(duì)象,由此輸入為查詢(引用表達(dá)式)與圖片中的 RoIs,并預(yù)測(cè)哪個(gè) RoI 為查詢輸入的引用,如下:

下面將介紹論文中的一些主要實(shí)驗(yàn)結(jié)果:

a)在視覺(jué)常識(shí)推理(Visual Commonsense Reasoning)任務(wù)中,與當(dāng)前最好方法的結(jié)果比較如下:

b)在視覺(jué)問(wèn)答(Visual Question Answering)任務(wù)中,與當(dāng)前最好方法的結(jié)果比較如下:

c)在引用表達(dá)式理解(Referring Expression Comprehension)任務(wù)中,與當(dāng)前最好方法的結(jié)果比較如下:

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6741

    瀏覽量

    107863
  • 機(jī)器
    +關(guān)注

    關(guān)注

    0

    文章

    798

    瀏覽量

    41877

原文標(biāo)題:牛人發(fā)明無(wú)人機(jī)自動(dòng)建房,空中噴“水泥”,網(wǎng)友:建筑工人要失業(yè)

文章出處:【微信號(hào):youuav,微信公眾號(hào):無(wú)人機(jī)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【正點(diǎn)原子STM32N647開(kāi)發(fā)板試用】--人體檢測(cè)模型體驗(yàn)

    STM32N647芯片具有npu的,有0.6tops的算例,可以部署簡(jiǎn)單模型, 本次實(shí)驗(yàn)我們體驗(yàn)的是人體識(shí)別模型,該模型來(lái)源于:STM32 Model Zoo 工程文件分三部分,我們?cè)诰€debug其中的FSBL部分才行, 提
    發(fā)表于 02-21 19:44

    沐曦曦云C500/C550 GPU產(chǎn)品適配PaddleOCR-VL-1.5模型

    PaddleOCR-VL 系列的全新迭代版本PaddleOCR-VL-1.5今天正式上線,沐曦曦云C500/C550 Day 0 適配PaddleOCR-VL-1.5模型,助力Padd
    的頭像 發(fā)表于 01-30 10:19 ?773次閱讀
    沐曦曦云C500/C550 GPU產(chǎn)品適配PaddleOCR-<b class='flag-5'>VL</b>-1.5<b class='flag-5'>模型</b>

    百度正式發(fā)布并開(kāi)源新一代文檔解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式發(fā)布并開(kāi)源新一代文檔解析模型 PaddleOCR-VL-1.5。該模型以僅 0.9B 參數(shù)的輕量架構(gòu),在全球權(quán)威文檔解析評(píng)測(cè)榜單 OmniDocBench V1.5 中
    的頭像 發(fā)表于 01-30 10:03 ?593次閱讀
    百度正式發(fā)布并開(kāi)源新一代文檔解析<b class='flag-5'>模型</b>PaddleOCR-<b class='flag-5'>VL</b>-1.5

    微軟發(fā)布AI芯片Maia 200,性能超越谷歌TPU和亞馬遜Trainium

    電子發(fā)燒友網(wǎng)綜合報(bào)道 美東時(shí)間1月26日,微軟重磅發(fā)布第二代自人工智能芯片Maia 200,這一舉措成為微軟減少對(duì)英偉達(dá)芯片依賴、高效驅(qū)動(dòng)自身服務(wù)的關(guān)鍵一步,也標(biāo)志著其在自芯片領(lǐng)域
    的頭像 發(fā)表于 01-27 16:46 ?3132次閱讀
    <b class='flag-5'>微軟</b>發(fā)布AI芯片Maia 200,性能超越谷歌TPU和亞馬遜Trainium

    模型到產(chǎn)品:Qwen2.5-VL在BM1684X邊緣計(jì)算部署全攻略

    前言:部署意義與應(yīng)用場(chǎng)景1.1Qwen-2-5-VL與BM1684X的組合行業(yè)意義:?邊緣AI革命:大模型從云端下沉到邊緣設(shè)備是當(dāng)前AI發(fā)展的關(guān)鍵趨勢(shì)。根據(jù)ABIResearch數(shù)據(jù),到2026年
    的頭像 發(fā)表于 01-13 14:17 ?4626次閱讀
    從<b class='flag-5'>模型</b>到產(chǎn)品:Qwen2.5-<b class='flag-5'>VL</b>在BM1684X邊緣計(jì)算部署全攻略

    使用 Docker 一鍵部署 PaddleOCR-VL: 新手保姆級(jí)教程

    ? PaddleOCR-VL 是基于輕量級(jí)視覺(jué)語(yǔ)言模型(VLM)的文檔解析解決方案,核心模型為 PaddleOCR-VL-0.9B,支持多語(yǔ)言文本、表格、公式、圖表等元素級(jí)識(shí)別,并能以
    的頭像 發(fā)表于 12-18 18:26 ?6440次閱讀
    使用 Docker 一鍵部署 PaddleOCR-<b class='flag-5'>VL</b>: 新手保姆級(jí)教程

    谷歌正式推出最新Gemini 3 AI模型

    今天我們正式推出 Gemini 3,這是我們迄今為止最智能的模型,能夠幫助用戶實(shí)現(xiàn)任何創(chuàng)意。Gemini 3 Pro 基于最先進(jìn)的推理技術(shù),與之前的版本相比,它在所有主要的 AI 基準(zhǔn)測(cè)試中都取得了無(wú)與倫比的結(jié)果,尤其是在編程方面也超越了 2.5 Pro,能夠熟練地處理智
    的頭像 發(fā)表于 11-24 11:10 ?1224次閱讀
    谷歌正式推出最新Gemini 3 AI<b class='flag-5'>模型</b>

    基于米爾瑞芯微RK3576開(kāi)發(fā)板的Qwen2-VL-3B模型NPU多模態(tài)部署評(píng)測(cè)

    案例:支持圖像和文本交互 步驟 1:環(huán)境準(zhǔn)備 步驟 2:模型的獲取、驗(yàn)證與格式轉(zhuǎn)換 步驟 3:修改代碼并交叉編譯可執(zhí)行文件并上傳到板子上 步驟 4:上傳文件到開(kāi)發(fā)板 性能測(cè)試 Tips 多模態(tài)效果
    發(fā)表于 08-29 18:08

    中軟國(guó)際在能源化工行業(yè)大模型項(xiàng)目取得重大突破

    近日,中軟國(guó)際簽約某大型石油企業(yè)大模型開(kāi)發(fā)項(xiàng)目。作為中國(guó)能源化工行業(yè)首個(gè)備案的大模型,此次簽約標(biāo)志著中軟國(guó)際在能源化工行業(yè)人工智能領(lǐng)域取得了重大突破。根據(jù)項(xiàng)目規(guī)劃,中軟國(guó)際將針對(duì)輸送管質(zhì)量檢測(cè)、常減壓工藝運(yùn)行優(yōu)化、設(shè)備預(yù)測(cè)性維護(hù)
    的頭像 發(fā)表于 07-05 17:03 ?1428次閱讀

    利用NVIDIA 3D引導(dǎo)生成式AI Blueprint控制圖像生成

    AI 賦能的圖像生成技術(shù)突飛猛進(jìn),從早期模型會(huì)生成手指過(guò)多的人類圖像,到現(xiàn)在能創(chuàng)造出令人驚嘆的逼真視覺(jué)效果。即使取得了如此飛躍,仍然存在一個(gè)挑戰(zhàn):實(shí)現(xiàn)創(chuàng)意掌控。
    的頭像 發(fā)表于 06-05 09:24 ?898次閱讀

    CADENAS 在 2025 年金字塔公司聯(lián)系博覽會(huì)上取得圓滿成功

    表現(xiàn)出了極大的積極性和好奇心。這種直接的交流和相互了解讓我們覺(jué)得這次招聘會(huì)非常特別! 感謝奧格斯堡大學(xué)的活動(dòng)團(tuán)隊(duì) 展會(huì)出色的組織工作、友好的氛圍以及美味的食物再次給我們留下了深刻印象。每年的金字塔公司招聘會(huì)都為我們提供了一個(gè)接觸年輕人才的絕佳平臺(tái),2025 年的招聘會(huì)對(duì)我們來(lái)說(shuō)又一次取得了圓滿成功。
    發(fā)表于 06-04 14:32

    百度文心大模型X1 Turbo獲得信通院當(dāng)前模型最高評(píng)級(jí)證書(shū)

    ,16項(xiàng)達(dá)5分,綜合評(píng)級(jí)獲當(dāng)前最高級(jí)“4+級(jí)”, 成為國(guó)內(nèi)首款通過(guò)該測(cè)評(píng)的大模型 。文心X1 Turbo邏輯推理、代碼推理、推理效果優(yōu)化等技術(shù)能力及工具支持度、安全可靠度等應(yīng)用能力均獲得滿分。 AI Day現(xiàn)場(chǎng),百度吳甜系統(tǒng)性講
    的頭像 發(fā)表于 05-21 18:19 ?1274次閱讀
    百度文心大<b class='flag-5'>模型</b>X1 Turbo獲得信通院<b class='flag-5'>當(dāng)前</b>大<b class='flag-5'>模型</b>最高評(píng)級(jí)證書(shū)

    安徽省水利科學(xué)研究院攜手中科曙光完成DeepSeek大模型部署

    近日,安徽省(水利部淮河水利委員會(huì))水利科學(xué)研究院攜手中科曙光,成功完成國(guó)產(chǎn)大模型DeepSeek、BGE-M3嵌入模型及重排模型的本地化部署與測(cè)試,并順利接入梅山水庫(kù)運(yùn)行管理矩陣平臺(tái),進(jìn)行水利業(yè)務(wù)應(yīng)用場(chǎng)景初探,
    的頭像 發(fā)表于 03-25 11:36 ?1036次閱讀

    利用英特爾OpenVINO在本地運(yùn)行Qwen2.5-VL系列模型

    近期阿里通義實(shí)驗(yàn)室在 Hugging Face 和 ModelScope 上開(kāi)源了 Qwen2.5-VL 的 Base 和 Instruct 模型,包含 3B、7B 和 72B 在內(nèi)的 3 個(gè)模型尺寸。
    的頭像 發(fā)表于 03-12 13:42 ?2611次閱讀
    利用英特爾OpenVINO在本地運(yùn)行Qwen2.5-<b class='flag-5'>VL</b>系列<b class='flag-5'>模型</b>

    請(qǐng)問(wèn)如何能讓模型效果更好?

    重現(xiàn)步驟 我用yolov8n訓(xùn)練出的模型,跑出來(lái)的識(shí)別是沒(méi)有問(wèn)題的,問(wèn)題是在部署到開(kāi)發(fā)板上,無(wú)論是穩(wěn)定性還是框的大小以及識(shí)別的準(zhǔn)確性都比較差,再試了幾次訓(xùn)練后的效果還是不好,請(qǐng)問(wèn)有什么更多的解決辦法
    發(fā)表于 03-11 07:21