91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

加速ViT模型新思路!Meta推出Token Merging

OpenCV學堂 ? 來源:新智元 ? 作者:新智元 ? 2022-12-06 15:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導讀】由Meta AI的研究人員推出Token Merging(ToMe),無需訓練即可加速 ViT 模型。更重要的是,這個模型不需對token進行剪枝。

視覺變換器(ViT)在兩年前進入大眾視野,并成為計算機視覺研究的核心組成部分。 它成功將一個在自然語言處理領域的Transformer模型遷移到計算機視覺領域。從那時起,計算機視覺領域的進步已經加速。

盡管在成本與性能方面被超越,Vanilla ViT仍有許多優(yōu)點。

它們是由簡單的矩陣乘法組成的,這使得它們的速度比它們的原始運算量所顯示的要快。

此外,它們支持強大的自監(jiān)督預訓練技術,如MAE(掩碼自動編碼器),可以產生最先進的結果,同時可以進行快速訓練。

而且由于它們不對數(shù)據進行假設,它們可以幾乎不加改變地應用在圖片、音頻、文本等諸多模式中。

當然,理想很豐滿,現(xiàn)實很骨感。ViT模型的規(guī)模大,有較大延時。在資源有限的設備上,運行這個復雜模型會產生很大問題。

Token剪枝:變好了,但沒完全好 針對運算慢的問題,研究人員給出了多個解決方案。其中一種常見的加速視覺 Transformer模型的方法是對進行token剪枝。 在運行時修剪標記,通過修剪不太重要的token產生高效的Transformer。如DynamicViT分層修剪冗余token,從而在分類任務中實現(xiàn)FLOPs減少。

然而,token剪枝有幾個問題,其中最主要的,是由于修剪token會產生信息損失,因此,人們對ViT模型token的剪枝數(shù)量是有限的,為了減少信息損失,只能對不重要的token進行修剪。

而且,為了使修剪過的token有效,人們需要再次訓練模型。這就造成額外的資源消耗。

更重要的是,token剪枝是動態(tài)的過程,需要根據不同的圖像或句子確定token剪枝的不同數(shù)量。雖然這有利于提高準確性,但卻不夠實用實用性,因為這種情況下,數(shù)據不能再進行批處理。

為了解決這個問題,人們需要在剪枝過程中添加掩碼,而這會進一步影響效率的提升。

簡單來說,token剪枝確實讓ViT跑得更快,但這是在信息損耗的代價上實現(xiàn)的。

TokenMerging:換個想法

怎樣才能使ViT的速度類似于剪枝,但保持比剪枝更高的準確度呢?Meta AI研究團隊給出了新的解題思路:Token Merging(ToMe)。

70f4dd92-74ad-11ed-8abf-dac502259ad0.png

論文鏈接:https://arxiv.org/pdf/2210.09461.pdf

Token Merging選擇將token結合,而非進行剪枝。由于其定制的匹配算法,它和剪枝一樣快,同時更準確。另外,它的工作不需要任何額外的訓練,所以你可以在巨大的模型上使用它來加快它們的速度,而不會犧牲很多準確性。

Meta的目標是在現(xiàn)有的ViT中插入一個Token Merging的模塊,通過合并冗余的token,在不需要額外訓練的前提下提高訓練和推理的吞吐量。

基本思路是:在Transformer模型中,通過合并,使每層減少r個token。假設一個Transformer模型有L層,那么通過合并就可以減少rL個token。變量r的大小決定了速度和精度的關系,因為更少的標記意味著更低的準確度但更高的吞吐量。

值得注意的是,在Token Merging中,無論圖像的內容如何,都會減少rL標記。這完美解決了token剪枝中無法進行批處理的問題。

通過ToMe,類似的token批在每個Transformer塊中被合并:例如,狗的皮毛被合并成一個token。

7110d9f2-74ad-11ed-8abf-dac502259ad0.png

Token Merging被插入每個attention塊和每個Transformer塊。這也與token剪枝的工作流程形成對比。后者傾向于將剪枝步驟放在每個Transformer塊的開頭。

7137d688-74ad-11ed-8abf-dac502259ad0.png

通過Token Merging,需要被合并的token的信息可以得到傳播,ViT也能夠借助attention塊中的特征來決定需要合并哪些token。

具體做法

合并的第一步是確定相似的token。在Transformer中的QKV(query, key, value)已被提取的條件下,通過消融實驗,研究團隊發(fā)現(xiàn)使用key可以最好衡量token之間的相似度(下圖紫色部分)。

7149485a-74ad-11ed-8abf-dac502259ad0.png

因為key已經總結了每個token中包含的信息,以便用于Attention中的dot-product來衡量token間的相似度。

除了研究哪個指標更好衡量token相似度外,還需要知道什么距離衡量相似度。通過實驗研究團隊發(fā)現(xiàn),使用使用余弦距離來衡量toke之間的相似度可以獲得最好的精度和速度的關系。

71602b60-74ad-11ed-8abf-dac502259ad0.png

確定了token的相似性,接下來需要一個快速的方法來確定哪些token需要匹配,以減少總數(shù)的r。

Meta團隊沒有使用kmeans聚類算法或圖分割算法,而是使用匹配算法,因為后者不僅可以精準匹配每一層token的數(shù)量,還能快速執(zhí)行上千次匹配。這些都是迭代聚類算法無法完成的。

因此,Meta團隊提出了一個更有效的解決方案。

設計目標如下。1.)避免任何無法并行化的迭代,2.)希望合并的變化是漸進的,因為聚類對多少個標記可以合并到一個組中沒有限制(這可能會對網絡產生不利影響),而匹配則使大多數(shù)標記沒有被合并。

7192354c-74ad-11ed-8abf-dac502259ad0.png

將所有token分為相同大小的2個集合A與B。

把從集合A中的每個token到B中與其最相似的token畫一條邊。

只留下最相似的r條邊, 其余刪掉。

融合仍然相連的邊(特征取均值)。

把這兩個集合拼在一起, 得到最終的合并結果。

通過這項獨特的技術,可以提高ViT模型的吞吐量和實際訓練速度。使用Token Merging可以將訓練速度提高一倍。它可以用于圖像、視頻和音頻任務,并且仍然可以達到最先進的準確性。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3755

    瀏覽量

    52124
  • Meta
    +關注

    關注

    0

    文章

    322

    瀏覽量

    12463
  • 自然語言處理

    關注

    1

    文章

    630

    瀏覽量

    14671

原文標題:加速ViT模型新思路!Meta推出Token Merging,不靠剪枝靠合并

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    中科曙光scaleX萬卡超集賦能中國大模型出海新篇章

    榜首,Kimi K2.5、智譜GLM-5、DeepSeek V3.2全線霸榜。這標志著中國大模型加速走向全球,Token作為AI時代的通用貨幣,已成為中國數(shù)字價值出海的新載體。
    的頭像 發(fā)表于 03-09 11:42 ?238次閱讀

    數(shù)字音頻放大器新思路:MAX98360全方位解析

    數(shù)字音頻放大器新思路:MAX98360全方位解析 在數(shù)字化浪潮的推動下,音頻設備市場對音質、效率和成本的要求日益嚴苛。在這個背景下,我們迎來了Analog Devices推出的MAX98360系列
    的頭像 發(fā)表于 01-16 14:15 ?173次閱讀

    Meta的AI慢性病,靠Manus能治嗎?

    Meta
    腦極體
    發(fā)布于 :2026年01月08日 16:58:02

    NVIDIA 推出 Nemotron 3 系列開放模型

    token 數(shù)。 ● Nemotron 通過先進的強化學習技術以及大規(guī)模并行多環(huán)境后訓練,實現(xiàn)了卓越的準確率。 ● NVIDIA 率先推出整套前沿的開放模型、訓練數(shù)據集及強化學習環(huán)境與
    的頭像 發(fā)表于 12-16 09:27 ?635次閱讀
    NVIDIA <b class='flag-5'>推出</b> Nemotron 3 系列開放<b class='flag-5'>模型</b>

    PowerVR上的LLM加速:LLM性能解析

    作者:AlexPim,Imagination軟件架構Fellow在Imagination,我們致力于加速大語言模型在日常設備上的運行。在本系列關于大語言模型性能與加速的兩篇博客的首篇中
    的頭像 發(fā)表于 12-10 08:34 ?321次閱讀
    PowerVR上的LLM<b class='flag-5'>加速</b>:LLM性能解析

    Arm與Meta深化戰(zhàn)略合作

    智能的毫瓦級設備,到訓練全球最先進 AI 模型的兆瓦級系統(tǒng),此次合作將推動 AI 覆蓋多種計算類型、工作負載及使用體驗,為 Meta 的全球平臺提供核心支撐。
    的頭像 發(fā)表于 10-24 17:54 ?1643次閱讀

    NVIDIA Spectrum-X 以太網交換機助力 Meta 和 Oracle 加速網絡性能

    超大規(guī)模企業(yè)廣泛采用 NVIDIA 網絡解決方案,驅動十億瓦級(Giga-Scale)高性能 AI 數(shù)據中心 Meta 推出基于 NVIDIA Spectrum 以太網的交換機,用于
    的頭像 發(fā)表于 10-14 10:26 ?1821次閱讀
    NVIDIA Spectrum-X 以太網交換機助力 <b class='flag-5'>Meta</b> 和 Oracle <b class='flag-5'>加速</b>網絡性能

    今日看點丨Meta 正式推出全新一代智能眼鏡;三星首次將光掩模生產外包

    Meta 正式推出全新一代智能眼鏡 Meta 正式推出全新一代智能眼鏡「Meta Ray-Ban Display」,并同步亮相創(chuàng)新交互設備「
    發(fā)表于 09-18 11:00 ?1537次閱讀

    谷歌推出AI模型Gemma 3 270M

    過去幾個月,Gemma 開放模型系列的發(fā)展是激動人心的。我們推出了 Gemma 3 和 Gemma 3 QAT,為單一云端和桌面加速器帶來了最先進的性能。
    的頭像 發(fā)表于 09-11 15:09 ?1160次閱讀

    成都匯陽投資關于大模型白熱化,應用加速分化

    Gemini 2.5 Flash Image登頂 多主流圖像榜,Meta 也從 Midjourney 授權 AI 圖像模型;視頻領域,阿里字節(jié)等刷新能力高度 ,谷歌將視頻模型推進至實時交互通用世界
    的頭像 發(fā)表于 09-09 09:30 ?928次閱讀

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現(xiàn)150萬TPS推理

    ? 自 2016 年推出 NVIDIA DGX 以來,NVIDIA 與 OpenAI 便開始共同推動 AI 技術的邊界。此次 OpenAI gpt-oss-20b 和 gpt-oss-120b 模型
    的頭像 發(fā)表于 08-15 20:34 ?2310次閱讀
    NVIDIA從云到邊緣<b class='flag-5'>加速</b>OpenAI gpt-oss<b class='flag-5'>模型</b>部署,實現(xiàn)150萬TPS推理

    Cognizant加速AI模型企業(yè)級開發(fā)

    -Cognizant推出AI Training Data Services,助力企業(yè)級AI模型加速開發(fā) Cognizant是數(shù)據與AI模型訓練合作伙伴,長期深受大型數(shù)字原生先鋒企業(yè)信賴
    的頭像 發(fā)表于 07-31 17:25 ?719次閱讀

    Token經濟,風起隴東

    以萬全之力,筑成東數(shù)西算的token經濟走廊
    的頭像 發(fā)表于 04-01 09:46 ?2477次閱讀
    <b class='flag-5'>Token</b>經濟,風起隴東

    自動駕駛大模型中常提的Token是個啥?對自動駕駛有何影響?

    、多模態(tài)傳感器數(shù)據的實時處理與決策。在這一過程中,大模型以其強大的特征提取、信息融合和預測能力為自動駕駛系統(tǒng)提供了有力支持。而在大模型的中,有一個“Token”的概念,有些人看到后或許會問:
    的頭像 發(fā)表于 03-28 09:16 ?1350次閱讀