91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

<button id="ygy4o"></button>

<code id="ygy4o"></code>

首頁
技術(shù)

可編程邏輯

MEMS/傳感技術(shù)

嵌入式技術(shù)

模擬技術(shù)

控制/MCU

處理器/DSP

存儲技術(shù)

EMC/EMI設計

電源/新能源

測量儀表

制造/封裝

RF/無線

接口/總線/驅(qū)動

EDA/IC設計

光電顯示

連接器

PCB設計

LEDs

汽車電子

醫(yī)療電子

人工智能

可穿戴設備

軍用/航空電子

工業(yè)控制

觸控感測

智能電網(wǎng)

音視頻及家電

通信網(wǎng)絡

機器人

vr|ar|虛擬現(xiàn)實

安全設備/系統(tǒng)

移動通信

便攜設備

物聯(lián)網(wǎng)

區(qū)塊鏈

HarmonyOS

RISC-V MCU

光伏

ChatGPT

IGBT

充電樁

氮化鎵

BLDC

逆變器

5G

電機控制
資源

技術(shù)文庫

新品速遞

電路圖

元器件知識

電子百科

最新技術(shù)文章

元器件搜索引擎
下載

在線工具

常用軟件

電子書

datasheet
專欄

電子說

專欄
社區(qū)

論壇

問答

小組

技術(shù)專欄

社區(qū)之星

試用中心

HarmonyOS技術(shù)社區(qū)

2023電子工程師大會
研究院
活動

設計大賽

硬創(chuàng)大賽

社區(qū)活動

線下會議

在線研討會

小測驗
學院

直播

課程
視頻
企業(yè)號
工具

datasheet查詢

免費評測試用

技術(shù)子站

搜索歷史

清空

搜索熱詞

0

聊天消息
系統(tǒng)消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續(xù)費

登錄后你可以

下載海量資料
學習在線課程
觀看技術(shù)視頻
寫文章/發(fā)帖/加入社區(qū)

會員中心

創(chuàng)作中心

發(fā)布

創(chuàng)作活動

完善資料讓更多小伙伴認識你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

基于預訓練視覺-語言模型的跨模態(tài)Prompt-Tuning

論文：CPT：Colorful Prompt Tuning for Pre-Training Vision-Language Models

狀態(tài)：Work in Progress

單位：清華大學、新加坡國立大學

鏈接：https://arxiv.org/pdf/2109.11797.pdf

提取摘要

預訓練的視覺語言模型（VL-PTMs）在將自然語言融入圖像數(shù)據(jù)中顯示出有前景的能力，促進了各種跨模態(tài)任務。

然而，作者注意到模型pre-training和finetune的客觀形式之間存在顯著差距，導致需要大量標記數(shù)據(jù)來刺激 VL-PTMs 對下游任務的視覺基礎能力。

為了應對這一挑戰(zhàn)，本文提出了跨模態(tài)提示調(diào)優(yōu)Cross-modal Prompt Tuning（CPT，或者，彩色-Color提示調(diào)優(yōu)），這是一種用于finetune VL-PTMs 的新范式，它在圖像和文本中使用基于顏色的共同參照標記重新構(gòu)建了視覺定位問題，使之成為一個填空問題，最大限度地縮小差距。

通過這種方式，本文的Prompt-Tuning方法可以讓 VL-PTMs 在少樣本甚至零樣本的強大的視覺預測能力。

綜合實驗結(jié)果表明，Prompt-Tuning的 VL-PTMs 大大優(yōu)于 finetune 的方法（例如，在 RefCOCO 評估中，一次平均提高 17.3% 準確度，one shot下平均相對標準偏差降低73.8%）。

數(shù)據(jù)和代碼會在之后公開，小伙伴們不要急~

方法介紹

背景：該任務為Visual Grounding視覺定位問題，通過一個給定的expression來定位在圖像中的位置。

Pre-training和fine-tuning

比如有一張識別好的圖片和下面的文字：

普通使用MLM（masked language modeling）的預訓練模型的到VL-PTMs方法為：

就是使用［mask］機制來預測被被掩蓋的token。

而finetune的話，就是使用傳統(tǒng)的［CLS］來遷就下游的任務，比如做二分類：

而使用被大規(guī)模數(shù)據(jù)預訓練的模型通過［CLS］來遷就下游任務，其實并不可解釋，而反過來讓下游帶著任務來到預訓練模型的［mask］戰(zhàn)場上，才能更能發(fā)揮其作用呀。

CPT： Cross-model Prompt Tuning

CPT方法首先將圖片用不同顏色來區(qū)分不同的實體模塊：

其次將Query Text插入到color-based的模板（eg. is in ［mask］ color）里：

最后在［mask］上預測對應的該是哪個顏色即可，語義上非常行得通。

模型公式

普通Finetune for VL-PLMs

首先從圖片 I 中通過目標檢測工具，檢測出一系列的region：

最終這些被選出來的region和Query Text（w）將被放入：

其中［IMG］、［CLS］和［SEP］為特殊token。

其中圖片regions的representation通過視覺的encoder獲得，而文本的就是lookup即可，最后通過預訓練模型VL-PLMs會得到：

最終使用隱層finetune做分類即可。

但是，finetuned VL-PLMs需要大量的標注數(shù)據(jù)來提高視覺定位的效果，這個也是一個弊端吧。

Cross-Modal Prompt Tuning - CPT

上面說過了，CPT需要兩個部分：

視覺子prompt

文本子prompt

視覺子prompt，目的是為了區(qū)分每一個region通過可分辨的標記，比如顏色，比如RGB （255， 0， 0）表示red，RGB和text要對應起來。

這里要注意的是，這個子prompt是直接加在原圖片上的，所以既沒有改變模型結(jié)果，又沒有改變參數(shù)。

文本子prompt，目的就是在圖片和Query Text之間建立一個鏈接，這里使用的模板為：

然后，VL-PTMs模型通過這樣的提示（prompt）來決定哪個顏色的region填在這個空里最恰當：

實驗

和finetune相比，CPT在zero-shot和few-shot下，性能可以說是爆表，巨額提升。在全量數(shù)據(jù)下，也能達到最佳值或者接近最佳值：

CPT在其他視覺任務上的應用

實體檢測

謂元分類

場景圖分類

總之，Prompt方法就是通過模板重新定義了任務，讓模型更具有解釋性，本篇文章第一次將Prompt用在了Vision-Language上，未來還會有很大的研究動向，感興趣的小伙伴可以細讀原文。

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
7335

瀏覽量
94748
RGB

RGB

+關(guān)注

關(guān)注
4

文章
831

瀏覽量
61925
CLS

CLS

+關(guān)注

關(guān)注
0

文章
9

瀏覽量
9884
prompt

prompt

+關(guān)注

關(guān)注
0

文章
16

瀏覽量
2864

原文標題：清華劉知遠提出CPT：基于預訓練視覺-語言模型的跨模態(tài)Prompt-Tuning

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

評論

深度學習自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關(guān)注個人主頁

Hot 一個給NLP領(lǐng)域帶來革新的預訓練語言大模型Bert
Hot 推薦一些翻譯英文文獻比較準確的軟件

New 高效大模型的推理綜述
New 什么是RAG，RAG學習和實踐經(jīng)驗

精選推薦
更多

文章

資料

帖子

安森美低功耗Hyperlux圖像傳感器產(chǎn)品選型指南

安森美
9小時前

613 閱讀

Verilog HDL語法學習筆記

FPGA技術(shù)江湖
11小時前

757 閱讀

如何設計高電壓DCM反向電荷泵轉(zhuǎn)換器

德州儀器
11小時前

728 閱讀

反激開關(guān)電源CCM和DCM模式波形分析

張飛電子實戰(zhàn)營
12小時前

779 閱讀

過孔焊盤，你真的了解嗎？PCB設計中的“隱形殺手”揭秘

華秋DFM
19小時前

958 閱讀

雙頻激光干涉儀操作手冊

李鴻洋
3160

10積分

82下載

開關(guān)電容ADC的頻域響應

159520
601 KB

免費

59下載

SimuLand部署模擬網(wǎng)絡攻擊實驗室環(huán)境

小芳
29.88 MB

免費

0下載

ESPlay Retro Emulation復古模擬游戲機

筆畫張
4.99 MB

2積分

2下載

樹莓派Pico分線板V2.0

安立路
0.14 MB

2積分

1下載

OrangePi RV2 深度技術(shù)評測：RISC-V AI融合架構(gòu)的先行者

行走的小派
2天前

384 閱讀

lab view NI6003搭建電路

jf_73763743
2天前

370 閱讀

RDMA設計47：雙邊語義驗證

xianuser2012
3天前

741 閱讀

飛凌嵌入式ElfBoard-進程之什么是進程

jf_13411809
3天前

1201 閱讀

RDMA設計46：RoCE v2原語功能：單邊語義

xianuser2012
4天前

1157 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

電子發(fā)燒友

My ElecFans

APP
網(wǎng)站地圖

設計技術(shù)

可編程邏輯

電源/新能源

MEMS/傳感技術(shù)

測量儀表

嵌入式技術(shù)

制造/封裝

模擬技術(shù)

RF/無線

接口/總線/驅(qū)動

處理器/DSP

EDA/IC設計

存儲技術(shù)

光電顯示

EMC/EMI設計

連接器

行業(yè)應用

LEDs

汽車電子

音視頻及家電

通信網(wǎng)絡

醫(yī)療電子

人工智能

虛擬現(xiàn)實

可穿戴設備

機器人

安全設備/系統(tǒng)

軍用/航空電子

移動通信

工業(yè)控制

便攜設備

觸控感測

物聯(lián)網(wǎng)

智能電網(wǎng)

區(qū)塊鏈

新科技

特色內(nèi)容

專欄推薦

學院

設計資源

設計技術(shù)

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術(shù)文章

產(chǎn)品地圖

品牌地圖

社區(qū)

小組

論壇

問答

評測試用

企業(yè)服務

產(chǎn)品

資料

文章

方案

企業(yè)

供應鏈服務

硬件開發(fā)

媒體服務

網(wǎng)站廣告

在線研討會

活動策劃

新聞發(fā)布

新品發(fā)布

小測驗

設計大賽

電子發(fā)燒友

關(guān)于我們

聯(lián)系我們

舉報投訴

社交網(wǎng)絡

微博

移動端

發(fā)燒友APP

WAP

聯(lián)系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內(nèi)容合作

張迎輝：mikezhang@elecfans.com

關(guān)注我們的微信

下載發(fā)燒友APP

電子發(fā)燒友觀察

版權(quán)所有 ? 長沙勒克斯教育咨詢有限公司

湖南省長沙市開福區(qū)月湖街道匍園路20號聚恒科技園1棟2301-1房
電子發(fā)燒友 （電路圖） 湘公網(wǎng)安備43011202000918 工商網(wǎng)監(jiān) 湘ICP備2023036445號-105-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级