91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google研究科學(xué)家:告別卷積

新機器視覺 ? 來源:AI科技大本營 ? 作者:AI科技大本營 ? 2020-10-23 09:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編譯 |凱隱 出品 | AI科技大本營(ID:rgznai100)

Transformer是由谷歌于2017年提出的具有里程碑意義的模型,同時也是語言AI革命的關(guān)鍵技術(shù)。在此之前的SOTA模型都是以循環(huán)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)(RNN, LSTM等)。從本質(zhì)上來講,RNN是以串行的方式來處理數(shù)據(jù),對應(yīng)到NLP任務(wù)上,即按照句中詞語的先后順序,每一個時間步處理一個詞語。


相較于這種串行模式,Transformer的巨大創(chuàng)新便在于并行化的語言處理:文本中的所有詞語都可以在同一時間進行分析,而不是按照序列先后順序。為了支持這種并行化的處理方式,Transformer依賴于注意力機制。注意力機制可以讓模型考慮任意兩個詞語之間的相互關(guān)系,且不受它們在文本序列中位置的影響。通過分析詞語之間的兩兩相互關(guān)系,來決定應(yīng)該對哪些詞或短語賦予更多的注意力。

相較于RNN必須按時間順序進行計算,Transformer并行處理機制的顯著好處便在于更高的計算效率,可以通過并行計算來大大加快訓(xùn)練速度,從而能在更大的數(shù)據(jù)集上進行訓(xùn)練。例如GPT-3(Transformer的第三代)的訓(xùn)練數(shù)據(jù)集大約包含5000億個詞語,并且模型參數(shù)量達到1750億,遠(yuǎn)遠(yuǎn)超越了現(xiàn)有的任何基于RNN的模型。

現(xiàn)有的各種基于Transformer的模型基本只是與NLP任務(wù)有關(guān),這得益于GPT-3等衍生模型的成功。然而,最近ICLR 2021的一篇投稿文章開創(chuàng)性地將Transformer模型跨領(lǐng)域地引用到了計算機視覺任務(wù)中,并取得了不錯地成果。這也被許多AI學(xué)者認(rèn)為是開創(chuàng)了CV領(lǐng)域的新時代,甚至可能完全取代傳統(tǒng)的卷積操作。 其中,Google的Deepmind 研究科學(xué)家Oriol Vinyals的看法很直接:告別卷積。 以下為該論文的詳細(xì)工作:

基本內(nèi)容 Transformer的核心原理是注意力機制,注意力機制在具體實現(xiàn)時主要以矩陣乘法計算為基礎(chǔ),這意味著可以通過并行化來加快計算速度,相較于只能按時間順序進行串行計算的RNN模型而言,大大提高了訓(xùn)練速度,從而能夠在更大的數(shù)據(jù)集上進行訓(xùn)練。 此外,Transformer模型還具有良好的可擴展性和伸縮性,在面對具體的任務(wù)時,常用的做法是先在大型數(shù)據(jù)集上進行訓(xùn)練,然后在指定任務(wù)數(shù)據(jù)集上進行微調(diào)。并且隨著模型大小和數(shù)據(jù)集的增長,模型本身的性能也會跟著提升,目前為止還沒有一個明顯的性能天花板。

Transformer的這兩個特性不僅讓其在NLP領(lǐng)域大獲成功,也提供了將其遷移到其他任務(wù)上的潛力。此前已經(jīng)有文章嘗試將注意力機制應(yīng)用到圖像識別任務(wù)上,但他們要么是沒有脫離CNN的框架,要么是對注意力機制進行了修改,導(dǎo)致計算效率低,不能很好地實現(xiàn)并行計算加速。因此在大規(guī)模圖片分類任務(wù)中,以ResNet為基本結(jié)構(gòu)的模型依然是主流。

這篇文章首先嘗試在幾乎不做改動的情況下將Transformer模型應(yīng)用到圖像分類任務(wù)中,在 ImageNet 得到的結(jié)果相較于 ResNet 較差,這是因為Transformer模型缺乏歸納偏置能力,例如并不具備CNN那樣的平移不變性和局部性,因此在數(shù)據(jù)不足時不能很好的泛化到該任務(wù)上。然而,當(dāng)訓(xùn)練數(shù)據(jù)量得到提升時,歸納偏置的問題便能得到緩解,即如果在足夠大的數(shù)據(jù)集上進行與訓(xùn)練,便能很好地遷移到小規(guī)模數(shù)據(jù)集上。 在此基礎(chǔ)上,作者提出了Vision Transformer模型。下面將介紹模型原理。

模型原理 該研究提出了一種稱為Vision Transformer(ViT)的模型,在設(shè)計上是盡可能遵循原版Transformer結(jié)構(gòu),這也是為了盡可能保持原版的性能。 雖然可以并行處理,但Transformer依然是以一維序列作為輸入,然而圖片數(shù)據(jù)都是二維的,因此首先要解決的問題是如何將圖片以合適的方式輸入到模型中。本文采用的是切塊 + embedding的方法,如下圖:

首先將原始圖片劃分為多個子圖(patch),每個子圖相當(dāng)于一個word,這個過程也可以表示為:

其中x是輸入圖片,xp則是處理后的子圖序列,P2則是子圖的分辨率,N則是切分后的子圖數(shù)量(即序列長度),顯然有。由于Transformer只接受1D序列作為輸入,因此還需要對每個patch進行embedding,通過一個線性變換層將二維的patch嵌入表示為長度為D的一維向量,得到的輸出被稱為patch嵌入。 ? 類似于BERT模型的[class] token機制,對每一個patch嵌入,都會額外預(yù)測一個可學(xué)習(xí)的嵌入表示,然后將這個嵌入表示在encoder中的最終輸出()作為對應(yīng)patch的表示。在預(yù)訓(xùn)練和微調(diào)階段,分類頭都依賴于。 ? 此外還加入了位置嵌入信息(圖中的0,1,2,3…),因為序列化的patch丟失了他們在圖片中的位置信息。作者嘗試了各種不同的2D嵌入方法,但是相較于一般的1D嵌入并沒有任何顯著的性能提升,因此最終使用聯(lián)合嵌入作為輸入。 ? 模型結(jié)構(gòu)與標(biāo)準(zhǔn)的Transformer相同(如上圖右側(cè)),即由多個交互層多頭注意力(MSA)和多層感知器(MLP)構(gòu)成。在每個模塊前使用LayerNorm,在模塊后使用殘差連接。使用GELU作為MLP的激活函數(shù)。整個模型的更新公式如下:

其中(1)代表了嵌入層的更新,公式(2)和(3)則代表了MSA和MLP的前向傳播。 此外本文還提出了一種直接采用ResNet中間層輸出作為圖片嵌入表示的方法,可以作為上述基于patch分割方法的替代。

模型訓(xùn)練和分辨率調(diào)整 和之前常用的做法一樣,在針對具體任務(wù)時,先在大規(guī)模數(shù)據(jù)集上訓(xùn)練,然后根據(jù)具體的任務(wù)需求進行微調(diào)。這里主要是更換最后的分類頭,按照分類數(shù)來設(shè)置分類頭的參數(shù)形狀。此外作者還發(fā)現(xiàn)在更高的分辨率進行微調(diào)往往能取得更好的效果,因為在保持patch分辨率不變的情況下,原始圖像分辨率越高,得到的patch數(shù)越大,因此得到的有效序列也就越長。

對比實驗4.1 實驗設(shè)置 首先作者設(shè)計了多個不同大小的ViT變體,分別對應(yīng)不同的復(fù)雜度。

數(shù)據(jù)集主要使用ILSVRC-2012,ImageNet-21K,以及JFT數(shù)據(jù)集。 4.2 與SOTA模型的性能對比 首先是和ResNet以及efficientNet的對比,這兩個模型都是比較有代表的基于CNN的模型。

其中ViT模型都是在JFT-300M數(shù)據(jù)集上進行了預(yù)訓(xùn)練。從上表可以看出,復(fù)雜度較低,規(guī)模較小的ViT-L在各個數(shù)據(jù)集上都超過了ResNet,并且其所需的算力也要少十多倍。ViT-H規(guī)模更大,但性能也有進一步提升,在ImageNet, CIFAR,Oxford-IIIT, VTAB等數(shù)據(jù)集上超過了SOTA,且有大幅提升。 作者進一步將VTAB的任務(wù)分為多組,并對比了ViT和其他幾個SOTA模型的性能:

可以看到除了在Natrual任務(wù)中ViT略低于BiT外,在其他三個任務(wù)中都達到了SOTA,這再次證明了ViT的性能強大。 4.3 不同預(yù)訓(xùn)練數(shù)據(jù)集對性能的影響 預(yù)訓(xùn)練對于該模型而言是一個非常重要的環(huán)節(jié),預(yù)訓(xùn)練所用數(shù)據(jù)集的規(guī)模將影響模型的歸納偏置能力,因此作者進一步探究了不同規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)集對性能的影響:

上圖展示了不同規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)集(橫軸)對不同大小的模型的性能影響,注意微調(diào)時的數(shù)據(jù)集固定為ImageNet。可以看到對大部分模型而言,預(yù)訓(xùn)練數(shù)據(jù)集規(guī)模越大,最終的性能越好。并且隨著數(shù)據(jù)集的增大,較大的ViT模型(ViT-H/14)要由于較小的ViT模型(ViT-L)。 此外,作者還在不同大小的JFT數(shù)據(jù)集的子集上進行了模型訓(xùn)練:

可以發(fā)現(xiàn)ViT-L對應(yīng)的兩個模型在數(shù)據(jù)集規(guī)模增大時有非常明顯的提升,而ResNet則幾乎沒有變化。這里可以得出兩個結(jié)論,一是ViT模型本身的性能上限要優(yōu)于ResNet,這可以理解為注意力機制的上限高于CNN。二是在數(shù)據(jù)集非常大的情況下,ViT模型性能大幅超越ResNet, 這說明在數(shù)據(jù)足夠的情況下,注意力機制完全可以代替CNN,而在數(shù)據(jù)集較小的情況下(10M),卷積則更為有效。 除了以上實驗,作者還探究了ViT模型的遷移性能,實驗結(jié)果表明不論是性能還是算力需求,ViT模型在進行遷移時都優(yōu)于ResNet。

可視化分析 可視化分析可以幫助我們了解ViT的特征學(xué)習(xí)過程。顯然,ViT模型的注意力一定是放在了與分類有關(guān)的區(qū)域:

總結(jié) 本文提出的基于patch分割的圖像解釋策略,在結(jié)合Transformer的情況下取得了非常好的效果,這為CV領(lǐng)域的其他研究提供了一個很好的思路。此外,接下來應(yīng)該會出現(xiàn)許多基于這篇工作的研究,進一步將這一劃時代的模型應(yīng)用到更多的任務(wù)上,例如目標(biāo)檢測、實例分割、行為識別等等。此外,也會出現(xiàn)針對patch分割策略的改進,來進一步提高模型性能。

原文標(biāo)題:告別 CNN?一張圖等于 16x16 個字,計算機視覺也用上 Transformer 了

文章出處:【微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6254

    瀏覽量

    111446
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39820

    瀏覽量

    301497
  • CV
    CV
    +關(guān)注

    關(guān)注

    0

    文章

    54

    瀏覽量

    17615
  • 解釋器
    +關(guān)注

    關(guān)注

    0

    文章

    103

    瀏覽量

    6993

原文標(biāo)題:告別 CNN?一張圖等于 16x16 個字,計算機視覺也用上 Transformer 了

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    思必馳首席科學(xué)家俞凱教授當(dāng)選2026年度IEEE Fellow

    日前,全球最大的專業(yè)技術(shù)組織國際電氣電子工程師協(xié)會(The Institute of Electrical and Electronics Engineers, IEEE)公布了2026年度IEEE Fellow(會士)名單,上海交通大學(xué)特聘教授、思必馳聯(lián)合創(chuàng)始人、首席科學(xué)家俞凱教授當(dāng)選。
    的頭像 發(fā)表于 12-12 11:36 ?819次閱讀

    中興通訊崔麗受邀出席2025騰沖科學(xué)家論壇

    近日,“2025騰沖科學(xué)家論壇”在云南啟幕。本屆論壇以“科學(xué)·AI改變世界”為主題,匯聚包括諾貝爾獎、圖靈獎、菲爾茲獎得主在內(nèi)的國際頂尖科學(xué)家,以及百余位兩院院士、高校校長、科技精英與產(chǎn)業(yè)領(lǐng)袖,共話
    的頭像 發(fā)表于 12-09 11:36 ?607次閱讀

    昊衡科技:第四屆飛行器健康管理技術(shù)國際高端論壇暨青年科學(xué)家論壇圓滿落幕

    2025年11月21日,第四屆飛行器健康管理技術(shù)國際高端論壇暨青年科學(xué)家論壇在廈門國際會展酒店(會展二路199號)圓滿落下帷幕。深度交流本屆論壇上,國產(chǎn)光學(xué)測量與傳感儀器制造商——武漢昊衡科技,展示
    的頭像 發(fā)表于 11-21 17:59 ?466次閱讀
    昊衡科技:第四屆飛行器健康管理技術(shù)國際高端論壇暨青年<b class='flag-5'>科學(xué)家</b>論壇圓滿落幕

    技術(shù)感知世界!昊衡科技在第四屆飛行器健康管理技術(shù)國際高端論壇暨青年科學(xué)家論壇等您!

    今日是第四屆飛行器健康管理技術(shù)國際高端論壇暨青年科學(xué)家論壇在廈門國際會展酒店(會展二路199號)的會議日,現(xiàn)場學(xué)術(shù)氛圍持續(xù)高漲。武漢昊衡科技作為國產(chǎn)先進光學(xué)測量與傳感測量儀器制造商,此次攜兩款創(chuàng)新
    的頭像 發(fā)表于 11-20 17:15 ?1707次閱讀
    技術(shù)感知世界!昊衡科技在第四屆飛行器健康管理技術(shù)國際高端論壇暨青年<b class='flag-5'>科學(xué)家</b>論壇等您!

    科學(xué)家利用微波激光照射鉆石,制造出時間準(zhǔn)晶體

    科學(xué)家利用微波激光照射鉆石,制造出時間準(zhǔn)晶體。 美國華盛頓大學(xué)、麻省理工學(xué)院和哈佛大學(xué)科學(xué)家攜手,成功在鉆石上“雕刻”出一種全新的物質(zhì)形態(tài):時間準(zhǔn)晶體。這項突破有望為量子計算、精確計時等領(lǐng)域帶來
    的頭像 發(fā)表于 11-19 07:35 ?200次閱讀
    <b class='flag-5'>科學(xué)家</b>利用微波激光照射鉆石,制造出時間準(zhǔn)晶體

    第四屆飛行器健康管理技術(shù)國際高端論壇暨青年科學(xué)家論壇:昊衡科技,歡迎您來!

    大會介紹第四屆飛行器健康管理技術(shù)國際高端論壇暨青年科學(xué)家論壇將于2025年11月19-21日在中國廈門舉行。會議由廈門大學(xué)和江南大學(xué)聯(lián)合主辦,圍繞飛行器健康管理與智能運維,以“數(shù)字時代、智領(lǐng)運維
    的頭像 發(fā)表于 11-14 17:36 ?3069次閱讀
    第四屆飛行器健康管理技術(shù)國際高端論壇暨青年<b class='flag-5'>科學(xué)家</b>論壇:昊衡科技,歡迎您來!

    卷積運算分析

    卷積運算的基礎(chǔ)運算是乘加運算(MAC,Multiplication and Accumulation),本文設(shè)計了基本運算單元PE模塊來實現(xiàn)MAC運算。對于卷積運算而言,一次性至少處理一個感受域規(guī)模
    發(fā)表于 10-28 07:31

    利用 Banana Pi BPI-CM5 Pro(ARMSoM CM5 SoM) 加速保護科學(xué)

    從中獲得有意義的信息。而這正是深度學(xué)習(xí)改變游戲規(guī)則的地方。 深度學(xué)習(xí)模型和人工智能加速硬件釋放了PAM真正的可擴展?jié)摿?,?b class='flag-5'>科學(xué)家能夠在合理的時間內(nèi)分析數(shù)TB的記錄。遷移學(xué)習(xí)意味著研究人員可以使用自己
    發(fā)表于 10-27 09:18

    國際類腦計算科學(xué)家Yulia Sandamirskaya教授加盟時識科技

    近日,國際類腦計算與神經(jīng)形態(tài)機器人領(lǐng)域知名科學(xué)家Yulia Sandamirskaya 教授,作為科學(xué)家顧問正式加入時識科技(SynSense)。
    的頭像 發(fā)表于 10-13 13:50 ?753次閱讀

    科技感拉滿!鯨啟智能機器人與無人機聯(lián)動,閃耀服務(wù)世界青年科學(xué)家論壇

    9 月 20 日,以 “青年,世界科學(xué)的未來” 為主題的世界青年科學(xué)家論壇(南京)在江北新區(qū)啟幕。20 余位諾貝爾獎得主、海內(nèi)外院士,超百位國際國內(nèi)青年科學(xué)家及產(chǎn)業(yè)代表齊聚,圍繞前沿科技展
    的頭像 發(fā)表于 10-11 16:54 ?283次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學(xué)應(yīng)用

    AI被賦予了人的智能,科學(xué)家們希望在沒有人類的引導(dǎo)下,AI自主的提出科學(xué)假設(shè),諾貝爾獎級別的假設(shè)哦。 AI驅(qū)動科學(xué)被認(rèn)為是科學(xué)發(fā)現(xiàn)的第五個范式了,與實驗
    發(fā)表于 09-17 11:45

    復(fù)星醫(yī)藥使用亞馬遜云科技生成式AI技術(shù)賦能醫(yī)療撰寫場景 助力科學(xué)家效率躍升

    進程。通過“臨床試驗報告一致性檢查”和“研發(fā)文獻翻譯”兩大功能,復(fù)星醫(yī)藥可解放科學(xué)家生產(chǎn)力,使其專注于創(chuàng)新藥研發(fā)的核心工作。在亞馬遜云科技的加持下,“臨床試驗報告一致性檢查”可覆蓋研究人員90%的撰寫場景,工作效率提升70%;而在“研發(fā)文
    發(fā)表于 07-14 14:16 ?1131次閱讀

    數(shù)字信號處理,科學(xué)家與工程師指南(664頁)

    數(shù)字信號處理入門書籍,非常全面,清晰易懂 獲取完整文檔資料可下載附件哦?。。?! 如果內(nèi)容有幫助可以關(guān)注、點贊、評論支持一下哦~
    發(fā)表于 07-11 14:59

    地物光譜儀如何幫助科學(xué)家研究植被和土壤?

    在遙感、生態(tài)、農(nóng)業(yè)等研究領(lǐng)域,科學(xué)家們常常會提到一個工具: 地物光譜儀 。它看起來像一臺“測光的槍”,卻能揭示土壤和植被的“隱藏信息”。那么,地物光譜儀到底是怎么工作的?它又是如何在科學(xué)研究
    的頭像 發(fā)表于 05-20 15:46 ?630次閱讀
    地物光譜儀如何幫助<b class='flag-5'>科學(xué)家</b><b class='flag-5'>研究</b>植被和土壤?

    云天勵飛董事長陳寧當(dāng)選深圳市青年科學(xué)家協(xié)會第十屆會長

    ? 2025年3月29日,深圳市青年科學(xué)家協(xié)會十屆一次會員大會在深圳市青少年活動中心南廳隆重舉行。百余位青年才俊齊聚一堂,共同見證協(xié)會換屆選舉,共話科技創(chuàng)新未來。共青團深圳市委員會書記胡火明出席了
    的頭像 發(fā)表于 03-31 19:15 ?1256次閱讀
    云天勵飛董事長陳寧當(dāng)選深圳市青年<b class='flag-5'>科學(xué)家</b>協(xié)會第十屆會長