91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種可以編碼局部信息的結(jié)構(gòu)T2T module,并證明了T2T的有效性

深度學(xué)習(xí)實(shí)戰(zhàn) ? 來源:深度學(xué)習(xí)實(shí)戰(zhàn) ? 作者:深度學(xué)習(xí)實(shí)戰(zhàn) ? 2021-03-11 16:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

深度學(xué)習(xí)實(shí)戰(zhàn)

前面提到過ViT,但是ViT在數(shù)據(jù)量不夠巨大的情況下是打不過ResNet的。于是ViT的升級(jí)版T2T-ViT橫空出世了,速度更快性能更強(qiáng)。T2T-ViT相比于ViT,參數(shù)量和MACs(Multi-Adds)減少了200%,性能在ImageNet上又有2.5%的提升。T2T-ViT在和ResNet50模型大小差不多的情況下,在ImageNet上達(dá)到了80.7%的準(zhǔn)確率。論文的貢獻(xiàn):

證明了通過精心設(shè)計(jì)的Transformer-based的網(wǎng)絡(luò)(T2T module and efficient backbone),是可以打敗CNN-based的模型的,而且不需要在巨型的訓(xùn)練集(如JFT-300M)上預(yù)訓(xùn)練。

提出了一種可以編碼局部信息的結(jié)構(gòu)T2T module,并證明了T2T的有效性。

展示了在設(shè)計(jì)CNNs backbone時(shí)用到的architecture engineering經(jīng)驗(yàn)同樣適用于設(shè)計(jì)Transformer-based的模型,通過大量的實(shí)驗(yàn)證明深且窄(deep-narrow)的網(wǎng)絡(luò)能夠增加feature的豐富性和減少冗余。

Why T2T-ViT?

先來說下ViT[1],ViT在從頭開始訓(xùn)練(trained from scratch) ImageNet時(shí),效果甚至比CNN-based的模型還差。這顯然是不能讓人足夠滿意的,文中分析了兩點(diǎn)原因:
(1)由于ViT是采用對(duì)原圖像分塊,然后做Linear Projection得到embedding。但是通過實(shí)驗(yàn)發(fā)現(xiàn),這種基于原圖像的簡(jiǎn)單tokenization并沒有很好地學(xué)到圖像的邊緣或者線條這種低級(jí)特征,導(dǎo)致ViT算法的學(xué)習(xí)效率不高,難以訓(xùn)練,因此ViT需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練。
(2)在有限的計(jì)算資源和有限的數(shù)據(jù)的情況下,ViT冗余的attention主干網(wǎng)絡(luò)難以學(xué)得豐富的特征。
所以為了克服這些限制,提出了Tokens-To-Token Vision Transformers(T2T-Vit)。為了證明上面的結(jié)論,還做了一個(gè)實(shí)驗(yàn),可視化了ResNet、ViT和T2T-ViT所學(xué)到的特征的差異。

綠色的框中表示了模型學(xué)到的一些諸如邊緣和線條的low-level structure feature,紅色框則表示模型學(xué)到了不合理的feature map,這些feature或者接近于0,或者是很大的值。從這個(gè)實(shí)驗(yàn)可以進(jìn)一步證實(shí),CNN會(huì)從圖像的低級(jí)特征學(xué)起,這個(gè)在生物上是說得通的,但是通過可視化來看,ViT的問題確實(shí)不小,且不看ViT有沒有學(xué)到低級(jí)的特征,后面的網(wǎng)絡(luò)層的feature map甚至出現(xiàn)了異常值,這個(gè)是有可能導(dǎo)致錯(cuò)誤的預(yù)測(cè)的,同時(shí)反映了ViT的學(xué)習(xí)效率差。 Tokens-to-Token:Progressive Tokenization

為了解決ViT的問題,提出了一種漸進(jìn)的tokenization去整合相鄰的tokens,從tokens到token,這種做法不僅可以對(duì)局部信息的建模還能減小token序列的長(zhǎng)度。整個(gè)T2T的操作分為兩個(gè)部分:重構(gòu)(re-structurization)和軟劃分(soft split)。(1)Re-structurization假設(shè)上一個(gè)網(wǎng)絡(luò)層的輸出為T,T經(jīng)過Transformer層得到T',Transformer是包括mutil-head self-attention和MLP的,因此從T到T'可以表示為T' = MLP(MSA(T)),這里MSA表示mutil-head self-attention,MLP表示多層感知機(jī),上述兩個(gè)操作后面都省略了LN。經(jīng)過Transformer層后輸出也是token的序列,為了重構(gòu)局部的信息,首先把它還原為原來的空間結(jié)構(gòu),即從一維reshape為二維,記作I。I = Reshape(T'),reshape操作就完成了從一維的向量到二維的重排列。整個(gè)操作可以參見上圖的step1。(2)Soft Split與ViT那種hard split不同,T2T-ViT采用了soft split,說直白點(diǎn)就是不同的分割部分會(huì)有overlapping。I會(huì)被split為多個(gè)patch,然后每個(gè)patch里面的tokens會(huì)拼接成一個(gè)token,也就是這篇論文的題目tokens to token,這個(gè)步驟也是最關(guān)鍵的一個(gè)步驟,因?yàn)檫@個(gè)步驟從圖像中相鄰位置的語(yǔ)義信息聚合到一個(gè)向量里面。同時(shí)這個(gè)步驟會(huì)使tokens序列變短,單個(gè)token的長(zhǎng)度會(huì)變長(zhǎng),符合CNN-based模型設(shè)計(jì)的經(jīng)驗(yàn)deep-narrow。 T2T module

在T2T模塊中,依次通過Re-structurization和Soft Split操作,會(huì)逐漸使tokens的序列變短。整個(gè)T2T模塊的操作可以表示如下:

由于是soft split所以tokens的序列長(zhǎng)度會(huì)比ViT大很多,MACs和內(nèi)存占用都很大,因此對(duì)于T2T模塊來說,只能減小通道數(shù),這里的通道數(shù)可以理解為embedding的維度,還使用了Performer[2]來進(jìn)一步減少內(nèi)存的占用。 Backbone

為了增加特征的豐富性和減少冗余,需要探索一個(gè)更有效的backbone。從DenseNet、Wide-ResNets、SENet、ResNeXt和GhostNet尋找設(shè)計(jì)的靈感,最終發(fā)現(xiàn):(1)在原ViT的網(wǎng)絡(luò)結(jié)構(gòu)上采用deep-narrow的原則,增加網(wǎng)絡(luò)的深度,減小token的維度,可以在縮小模型參數(shù)量的同時(shí)提升性能。(2)使用SENet[3]中的channel attention對(duì)ViT會(huì)有提升,但是在使用deep-narrow的結(jié)構(gòu)下提升很小。 Architecture

T2T-ViT由T2T module和T2T-ViT backbone組成。PE是position embedding。對(duì)于T2T-ViT-14來說,由14個(gè)transformer layers組成,backbone中的hidden dimensions是384。對(duì)比ViT-B/16,ViT-B/16有12個(gè)transformer layers,hidden dimensions是768,模型大小和MACs是T2T-ViT-14整整三倍。 Experiments

934c3554-7dfe-11eb-8b86-12bb97331649.png

在不使用預(yù)訓(xùn)練時(shí),T2T-ViT和ViT的對(duì)比,可以看到T2T-ViT真的是完勝ViT啊,不僅模型比你小,精度還比你高。

93bdebfe-7dfe-11eb-8b86-12bb97331649.png

不僅完勝ViT,ResNet也不在話下,說實(shí)話看到這個(gè)結(jié)果的時(shí)候真的可以說Transformer戰(zhàn)勝了CNN了。 Conclusion

T2T-ViT通過重構(gòu)圖像的結(jié)構(gòu)性信息,克服了ViT的短板,真正意義上擊敗了CNN。通過提出tokens-to-token的process,逐漸聚合周圍的token,增強(qiáng)局部性信息。這篇論文中不僅探索了Transformer-based的網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì),證明了在Transformer-based模型中deep-narrow要好于shallow-wide,還取得了很好的性能表現(xiàn)。 Reference

[1]A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. [2]K. Choromanski, V. Likhosherstov, D. Dohan, X. Song, A. Gane, T. Sarlos, P. Hawkins, J. Davis, A. Mohiuddin, L. Kaiser, et al. Rethinking attention with performers. arXiv preprint arXiv:2009.14794, 2020. [3]Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 7132-7141.

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 可視化
    +關(guān)注

    關(guān)注

    1

    文章

    1353

    瀏覽量

    22791
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5598

    瀏覽量

    124396
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    355

    瀏覽量

    23417

原文標(biāo)題:Tokens to-Token ViT:真正意義上擊敗了CNN

文章出處:【微信號(hào):gh_a204797f977b,微信公眾號(hào):深度學(xué)習(xí)實(shí)戰(zhàn)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    通過特定方法驗(yàn)證T2PAK封裝散熱設(shè)計(jì)的有效性

    盡管這些方案能有效降低PCB熱阻,但因需增加額外的制造工序而成本較高。相比之下,頂面散熱的T2PAK封裝可直接通過器件頂部高效散熱,無需額外的高成本制造工藝。這些研究結(jié)果進(jìn)步驗(yàn)證了T2
    的頭像 發(fā)表于 02-25 11:09 ?1261次閱讀
    通過特定方法驗(yàn)證<b class='flag-5'>T2</b>PAK封裝散熱設(shè)計(jì)的<b class='flag-5'>有效性</b>

    安森美T2PAK封裝功率器件貼裝方法

    T2PAK應(yīng)用筆記重點(diǎn)介紹T2PAK封裝的貼裝及其熱性能的高效利用。內(nèi)容涵蓋以下方面:T2PAK封裝詳解:全面說明封裝結(jié)構(gòu)與關(guān)鍵規(guī)格參數(shù);焊接注意事項(xiàng):闡述實(shí)現(xiàn)可靠電氣連接的關(guān)鍵焊接注
    的頭像 發(fā)表于 02-05 08:56 ?1.1w次閱讀
    安森美<b class='flag-5'>T2</b>PAK封裝功率器件貼裝方法

    安森美T2PAK封裝結(jié)構(gòu)與關(guān)鍵規(guī)格參數(shù)

    T2PAK應(yīng)用筆記重點(diǎn)介紹T2PAK封裝的貼裝及其熱性能的高效利用。內(nèi)容涵蓋以下方面:T2PAK封裝詳解:全面說明封裝結(jié)構(gòu)與關(guān)鍵規(guī)格參數(shù);焊接注意事項(xiàng):闡述實(shí)現(xiàn)可靠電氣連接的關(guān)鍵焊接注
    的頭像 發(fā)表于 01-29 16:17 ?1395次閱讀
    安森美<b class='flag-5'>T2</b>PAK封裝<b class='flag-5'>結(jié)構(gòu)</b>與關(guān)鍵規(guī)格參數(shù)

    深入剖析CY54FCT157T與CY74FCT157T:四通道2輸入多路復(fù)用器的卓越性能

    深入剖析CY54FCT157T與CY74FCT157T:四通道2輸入多路復(fù)用器的卓越性能 在電子設(shè)計(jì)的領(lǐng)域中,多路復(fù)用器是一種至關(guān)重要的基礎(chǔ)元件,它能夠在多個(gè)輸入信號(hào)中進(jìn)行選擇,將所需
    的頭像 發(fā)表于 01-16 16:30 ?1635次閱讀

    探索CY54FCT157T和CY74FCT157T四路2輸入復(fù)用器:特性、參數(shù)與應(yīng)用考量

    探索CY54FCT157T和CY74FCT157T四路2輸入復(fù)用器:特性、參數(shù)與應(yīng)用考量 在電子設(shè)計(jì)的世界里,復(fù)用器是一種關(guān)鍵的邏輯元件,它能在多個(gè)輸入信號(hào)中進(jìn)行選擇,為數(shù)據(jù)的傳輸和處
    的頭像 發(fā)表于 01-16 11:25 ?388次閱讀

    Renesas MCK - RA6T2電機(jī)控制評(píng)估套件:設(shè)計(jì)與應(yīng)用全解析

    Renesas MCK - RA6T2電機(jī)控制評(píng)估套件:設(shè)計(jì)與應(yīng)用全解析 在電機(jī)控制領(lǐng)域,款優(yōu)秀的評(píng)估套件能為工程師們的開發(fā)工作帶來極大便利。Renesas的MCK - RA6T2就是這樣
    的頭像 發(fā)表于 12-30 09:55 ?263次閱讀

    探索 KIT_T2G-B-H_LITE:汽車應(yīng)用評(píng)估套件深度剖析

    探索 KIT_T2G-B-H_LITE:汽車應(yīng)用評(píng)估套件深度剖析 各位電子工程師同仁們!在汽車電子應(yīng)用領(lǐng)域,選擇款合適的評(píng)估套件對(duì)于項(xiàng)目的開發(fā)至關(guān)重要。今天,我們就來深入探討下 Infineon
    的頭像 發(fā)表于 12-20 09:30 ?791次閱讀

    KIT_T2G-B-H_LITE評(píng)估套件:汽車應(yīng)用開發(fā)利器

    ? T2G評(píng)估套件.pdf 、套件概述 KIT_T2G-B-H_LITE評(píng)估套件主要用于評(píng)估和開發(fā)基于TRAVEO? T2G-B-H MCU的應(yīng)用。TRAVEO?
    的頭像 發(fā)表于 12-19 16:55 ?726次閱讀

    探索 KIT_T2G-B-E_LITE 評(píng)估套件:開啟 TRAVEO? T2G 開發(fā)之旅

    探索 KIT_T2G-B-E_LITE 評(píng)估套件:開啟 TRAVEO? T2G 開發(fā)之旅 在電子工程師的日常工作中,選擇款合適的評(píng)估套件對(duì)于項(xiàng)目的開展至關(guān)重要。今天,我們就來深入了解
    的頭像 發(fā)表于 12-19 16:40 ?782次閱讀

    探索 NXH80T120L2Q0S2G/S2TG, NXH80T120L2Q0P2G 功率模塊的卓越性能

    在電子工程領(lǐng)域,功率模塊的性能直接影響著整個(gè)系統(tǒng)的效率和可靠。今天,我們就來深入了解下 onsemi 推出的 NXH80T120L2Q0S2G/S2TG, NXH80
    的頭像 發(fā)表于 12-04 10:35 ?1182次閱讀
    探索 NXH80<b class='flag-5'>T120L2Q0S2</b>G/S<b class='flag-5'>2</b>TG, NXH80<b class='flag-5'>T120L2Q0P2</b>G 功率模塊的卓越性能

    0.1-6.0 GHz SP2T 開關(guān) skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()0.1-6.0 GHz SP2T 開關(guān)相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有0.1-6.0 GHz SP2T 開關(guān)的引腳圖、接線圖、封裝手冊(cè)、中文資料、英文資料,0.1-6.0 GHz SP2T 開關(guān)真值表,0.1
    發(fā)表于 08-12 18:32
    0.1-6.0 GHz SP<b class='flag-5'>2T</b> 開關(guān) skyworksinc

    0.01 至 6.0 GHz 單控 SP2T 開關(guān) skyworksinc

    ,0.01 至 6.0 GHz 單控 SP2T 開關(guān)真值表,0.01 至 6.0 GHz 單控 SP2T 開關(guān)管腳等資料,希望可以幫助到廣大的電子工程師們。
    發(fā)表于 08-12 18:30
    0.01 至 6.0 GHz 單控 SP<b class='flag-5'>2T</b> 開關(guān) skyworksinc

    瑞薩RZ T2M與RZ T2L微控制器的編碼器接口使用有何差異

    RZ T2M和RZ T2L兩款芯片在編碼器接口的硬件實(shí)現(xiàn)上有所差異。不少客戶關(guān)注到這個(gè)差異之后,比較關(guān)心二者在編碼器接口使用上有什么差異和注意事項(xiàng)。本文就客戶的關(guān)注點(diǎn)展開詳細(xì)的說明,在
    的頭像 發(fā)表于 04-09 17:14 ?2070次閱讀
    瑞薩RZ <b class='flag-5'>T2</b>M與RZ <b class='flag-5'>T2</b>L微控制器的<b class='flag-5'>編碼</b>器接口使用有何差異

    FA15-220S06E2D4(-T)(-TS) FA15-220S06E2D4(-T)(-TS)

    、接線圖、封裝手冊(cè)、中文資料、英文資料,F(xiàn)A15-220S06E2D4(-T)(-TS)真值表,F(xiàn)A15-220S06E2D4(-T)(-TS)管腳等資料,希望
    發(fā)表于 03-24 18:53
    FA15-220S06E<b class='flag-5'>2</b>D4(-<b class='flag-5'>T</b>)(-TS) FA15-220S06E<b class='flag-5'>2</b>D4(-<b class='flag-5'>T</b>)(-TS)

    BK15-500S24H2N6(-T)(-TS) BK15-500S24H2N6(-T)(-TS)

    、接線圖、封裝手冊(cè)、中文資料、英文資料,BK15-500S24H2N6(-T)(-TS)真值表,BK15-500S24H2N6(-T)(-TS)管腳等資料,希望
    發(fā)表于 03-20 18:57
    BK15-500S24H<b class='flag-5'>2</b>N6(-<b class='flag-5'>T</b>)(-TS) BK15-500S24H<b class='flag-5'>2</b>N6(-<b class='flag-5'>T</b>)(-TS)