91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

<button id="ygy4o"></button>

<code id="ygy4o"></code>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統(tǒng)消息
評論與回復(fù)

查看更多

查看更多

查看更多

VIP于到期續(xù)費(fèi)

登錄后你可以

下載海量資料
學(xué)習(xí)在線課程
觀看技術(shù)視頻
寫文章/發(fā)帖/加入社區(qū)

會員中心

創(chuàng)作中心

發(fā)布

創(chuàng)作活動

完善資料讓更多小伙伴認(rèn)識你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

利用ImageNet訓(xùn)練了一個能降噪、超分和去雨的圖像預(yù)訓(xùn)練模型

說到Transformer，大家可能會想到BERT[1]、GPT-3[2]等等，這些都是利用無監(jiān)督訓(xùn)練的大型預(yù)訓(xùn)練模型。既然Transformer也能用在CV上，那么能不能做類似的事情呢？這篇論文利用ImageNet訓(xùn)練了一個能降噪、超分和去雨的圖像預(yù)訓(xùn)練模型（IPT）。

Motivation

目前很多l(xiāng)ow-level的task其實(shí)都是有一定相關(guān)性的，就是在一個low-level task上預(yù)訓(xùn)練對另一個task是有幫助的，但是目前幾乎沒有人去做相關(guān)的工作。而且pre-training在某些數(shù)據(jù)稀缺的task上就很有必要，并且無論在CV還是NLP，使用pre-trained model是非常常見的事情。對于一些輸入和輸出都是image的low-level算法來說，目前的pre-trained model顯然是不適合的。

準(zhǔn)備數(shù)據(jù)集

因?yàn)門ransformer需要大量的數(shù)據(jù)去擬合，所以必須使用一個大型的數(shù)據(jù)集。在這篇論文中，作者用的是imagenet。對于imagenet的每一張圖片生成各種任務(wù)對應(yīng)的圖像對，例如對于超分（super-resolution）來說，模型的輸入數(shù)據(jù)是imagenet經(jīng)過下采樣的數(shù)據(jù)，而標(biāo)簽是原圖。

IPT

在上篇文章介紹過了，因?yàn)門ransformer本身是用于NLP領(lǐng)域的，輸入應(yīng)該是一個序列，因此這篇的論文做法和ViT[3]一樣，首先需要把feature map分塊，每個patch則視為一個word。但是不同的是，因?yàn)镮PT是同時訓(xùn)練多個task，因此模型定義了多個head和tail分別對應(yīng)不同的task。

整個模型架構(gòu)包含四個部分：用于提取特征的heads、Transformer Encoder、Transformer Decoder和把feature map還原成輸出的tails。

Heads

不同的head對應(yīng)于不同的task，由于IPT需要處理多個task，因此是一個multi-head的結(jié)構(gòu)，每個head由3層卷積層組成。Heads要完成的任務(wù)可以描述為：fH = Hi(x)，x是輸入圖像，f是第i個Head的輸出。

Transformer encoder

在輸入Transformer前，需要將Head輸出的feature map分成一個個patch，同樣還需要加入位置編碼信息，與ViT不同，這里是直接相加就可以作為Transformer Encoder的輸入了，不需要做linear projection。

fpi是feature map的一個patch，Epi∈ RP*P×C是fpi的learnable position encoding。LN是layer normalization，MSA是多頭self-attention模塊，F(xiàn)FN是feed forward network。

Transformer decoder

Transformer decoder的輸入時encoder的輸出和task embedding。這些task embedding是可訓(xùn)練的，不同的task embedding代表處理不同的task。decoder的計算可以表示如下：

fEi是指encoder的輸出，fDi是指decoder的輸出。

Tails

Tails與Heads是相對應(yīng)的，但是不同的tail的輸出的大小可能不一樣，例如超分，做超分時輸出比輸入的圖像大，因此與其它的tail輸出的大小可能不一樣。

Loss

loss由兩部分組成，分別是Lcontrastive和Lsupervised的加權(quán)和。

Lsupervised是指IPT的輸出與label的L1 loss。

加入Lcontrastive是為了最小化Transformer decoder對于來自同一張圖的不同patch的輸出的距離，最大化對于不同圖片的patch之間的輸出的距離。

實(shí)驗(yàn)與結(jié)果

作者用了32塊NVIDIA Tesla V100，以256的batch size訓(xùn)練了200個epoch。

Reference

[1]Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. Bert: Pre-training of deep bidirectionaltransformers for language understanding. arXiv preprintarXiv:1810.04805, 2018.

[2]Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al.Language models are few-shot learners. arXiv preprintarXiv:2005.14165, 2020.

[3]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

責(zé)任編輯：lq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3752

瀏覽量
52111
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1236

瀏覽量
26201
nlp

nlp

+關(guān)注

關(guān)注
1

文章
491

瀏覽量
23280

原文標(biāo)題：視覺新范式Transformer之IPT

文章出處：【微信號：gh_a204797f977b，微信公眾號：深度學(xué)習(xí)實(shí)戰(zhàn)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

評論

電子發(fā)燒友

My ElecFans

APP
網(wǎng)站地圖

設(shè)計技術(shù)

可編程邏輯

電源/新能源

MEMS/傳感技術(shù)

測量儀表

嵌入式技術(shù)

制造/封裝

模擬技術(shù)

RF/無線

接口/總線/驅(qū)動

處理器/DSP

EDA/IC設(shè)計

存儲技術(shù)

光電顯示

EMC/EMI設(shè)計

連接器

行業(yè)應(yīng)用

LEDs

汽車電子

音視頻及家電

通信網(wǎng)絡(luò)

醫(yī)療電子

人工智能

虛擬現(xiàn)實(shí)

可穿戴設(shè)備

機(jī)器人

安全設(shè)備/系統(tǒng)

軍用/航空電子

移動通信

工業(yè)控制

便攜設(shè)備

觸控感測

物聯(lián)網(wǎng)

智能電網(wǎng)

區(qū)塊鏈

新科技

特色內(nèi)容

專欄推薦

學(xué)院

設(shè)計資源

設(shè)計技術(shù)

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術(shù)文章

產(chǎn)品地圖

品牌地圖

社區(qū)

小組

論壇

問答

評測試用

企業(yè)服務(wù)

產(chǎn)品

資料

文章

方案

企業(yè)

供應(yīng)鏈服務(wù)

硬件開發(fā)

媒體服務(wù)

網(wǎng)站廣告

在線研討會

活動策劃

新聞發(fā)布

新品發(fā)布

小測驗(yàn)

設(shè)計大賽

電子發(fā)燒友

關(guān)于我們

聯(lián)系我們

舉報投訴

社交網(wǎng)絡(luò)

微博

移動端

發(fā)燒友APP

WAP

聯(lián)系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內(nèi)容合作

張迎輝：mikezhang@elecfans.com

關(guān)注我們的微信

下載發(fā)燒友APP

電子發(fā)燒友觀察

版權(quán)所有 ? 長沙勒克斯教育咨詢有限公司

湖南省長沙市開福區(qū)月湖街道匍園路20號聚恒科技園1棟2301-1房
電子發(fā)燒友 （電路圖） 湘公網(wǎng)安備43011202000918 工商網(wǎng)監(jiān) 湘ICP備2023036445號-105-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级