91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

MIT的SpAtten架構將注意力機制用于高級NLP

星星科技指導員 ? 來源:嵌入式計算設計 ? 作者:Saumitra Jagdale ? 2022-07-01 10:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

處理人工生成的文本數(shù)據(jù)一直是一項重要但具有挑戰(zhàn)性的任務,因為人類語言對于機器理解往往具有自然的魯棒性。

盡管如此,仍然有許多高效的 NLP 模型,例如 Google 的 BERT 和 Open AI 的 GPT2,它們的功能是通過高級處理和計算來理解這些數(shù)據(jù)。這些模型在搜索引擎中找到了它們的應用,因為搜索命令需要與相關的來源和頁面匹配,而與術語的性質無關。

麻省理工學院的 SpAtten 學習系統(tǒng)通過其優(yōu)化的軟件硬件設計專注于高效的搜索預測,從而以更少的計算能力進行高級自然語言處理。因此,SpAtten 系統(tǒng)的架構取代了高端 CPUGPU 的組合,它們共同輸出類似于 MIT 的 SpAtten 學習系統(tǒng)的效率。

SpAtten 學習系統(tǒng)中的注意力機制

當數(shù)據(jù)量大時,注意力機制在自然語言處理中起著至關重要的作用。特別是在文本數(shù)據(jù)包含對建模可能不是很重要的各種特征的情況下。這可能會浪費系統(tǒng)的整體計算。因此,神經(jīng)網(wǎng)絡輸入層中的注意力機制從文本數(shù)據(jù)中動態(tài)提取相關特征,可以優(yōu)化算法在廣泛數(shù)據(jù)集上的處理。

SpAtten 使用注意力機制算法去除在 NLP 方面權重較小的單詞。因此,它有選擇地從輸入的文本數(shù)據(jù)中挑選出相關的關鍵詞。這避免了對不必要的文本數(shù)據(jù)的實時處理,從而節(jié)省了系統(tǒng)的整體計算時間。然而,這種處理提供了效率和準確性,但它的代價是設計良好的硬件與這種復雜的算法兼容。

因此,麻省理工學院一直致力于其新 SpAtten 學習系統(tǒng)的軟件和硬件方面。設計的硬件致力于優(yōu)化這些復雜的算法,以減少處理和內(nèi)存訪問。這些技術在用于文本數(shù)據(jù)時克服了構建具有高效處理速度和能力的系統(tǒng)的挑戰(zhàn)。因此,硬件“以更少的計算能力實現(xiàn)了精簡的 NLP”。

SpAtten 架構的優(yōu)化技術

循環(huán)和卷積神經(jīng)網(wǎng)絡被認為是深度學習模型的理想選擇,但麻省理工學院關于“SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning”的研究論文讓我們注意到注意力機制可以比這些網(wǎng)絡表現(xiàn)更好,如前一部分所述。

該架構支持級聯(lián)修剪技術,該技術對令牌??和頭進行操作,而不是傳統(tǒng)方法中使用的權重。正如術語“剪枝”暗示移除令牌一樣,一旦從層中移除令牌/頭,那么它將永遠不會在后續(xù)層中被處理,因為它被永久“剪枝”或從系統(tǒng)中移除。這就是為什么優(yōu)化數(shù)據(jù)的實時處理并且系統(tǒng)適應輸入實例的原因。

該系統(tǒng)使用漸進式量化技術來減少 DRAM 訪問。僅當 MSB 不足以執(zhí)行量化時,該技術才對 LSB 起作用。然而,這是以計算為代價的,但內(nèi)存訪問顯著減少。因此,它使注意力層動態(tài)和自適應以優(yōu)化 DRAM 訪問。該系統(tǒng)還帶有內(nèi)置的 SRAM,用于存儲可在眾多查詢中重復使用的已刪除令牌。

通用的 AI 加速器、GPU、TPU 和 NPU 即使支持高計算能力也無法實現(xiàn)這些技術,因為這些組件只能增強現(xiàn)有的傳統(tǒng)神經(jīng)網(wǎng)絡,包括 CNN 和 RNN。因此,麻省理工學院設計了專門的硬件來實現(xiàn)這些優(yōu)化算法。

SpAtten 學習系統(tǒng)的分析

SpAtten 硬件架構的模擬揭示了其與競爭處理器相比的高處理能力。麻省理工學院表示:“SpAtten 的運行速度比第二好的競爭對手(TITAN Xp GPU)快 100 倍以上。此外,SpAtten 的能源效率是其競爭對手的 1000 多倍,這表明 SpAtten 可以幫助減少 NLP 的大量電力需求?!?/p>

Google 的 BERT 和 Open AI 的 GPT2 模型也使用類似的注意力機制,但是復雜的判別和生成技術會導致延遲和延遲。MIT 的 SpAtten 是 NLP 算法和專用于注意力機制的專用硬件的組合。這種組合控制了標準 CPU 在 GPT-2 或 BERT 上運行時消耗的高功耗。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    20269

    瀏覽量

    252867
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5209

    瀏覽量

    135600
  • 深度學習
    +關注

    關注

    73

    文章

    5599

    瀏覽量

    124456
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    算法工程師需要具備哪些技能?

    ResNet、VGG)。RNN/LSTM:序列建模(如時間序列預測、NLP中的文本生成)。Transformer:自注意力機制(如BERT、GPT)。 模型調(diào)優(yōu)正則化:L1/L2正則化防止過擬合。超參數(shù)
    發(fā)表于 02-27 10:53

    Transformer 入門:從零理解 AI 大模型的核心原理

    字 │└─────────────────────────────────┘│ │↓│ │┌─────────────────────────────────┐│ ││2?? Transformer Block(×12) ││← 理解語義關系 ││? 注意力機制││ ││
    發(fā)表于 02-10 16:33

    如何基于P300個性化調(diào)控ADHD?

    HUIYINGADHD機理概述注意力缺陷多動障礙(ADHD)的核心機理涉及注意力資源分配缺陷,這反映在事件相關電位(ERP)中P300成分的振幅降低上。ADHD患者(包括成人和兒童)在執(zhí)行
    的頭像 發(fā)表于 01-28 18:24 ?344次閱讀
    如何基于P300個性化調(diào)控ADHD?

    自然場景下注意力如何耳周腦電可靠監(jiān)測

    HUIYING自然聽覺注意力概述聽覺注意力是大腦在復雜聽覺場景中選擇相關信息、抑制無關信息的重要認知功能。傳統(tǒng)研究多在實驗室內(nèi)使用笨重設備與人工刺激進行,限制了其生態(tài)效度。本研究采用語音包絡跟蹤、被
    的頭像 發(fā)表于 12-05 18:03 ?4136次閱讀
    自然場景下<b class='flag-5'>注意力</b>如何耳周腦電可靠監(jiān)測

    湘軍,讓算變成生產(chǎn)

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學習AI芯片的創(chuàng)新方法與架構

    基于注意力機制的神經(jīng)網(wǎng)絡結構。該模型將計算資源集中在對任務真正具有價值的關注焦點,使用于大規(guī)模并行處理任務,專為在GPU上進行處理而設計。 Transformer 模型的核心思想是自注意
    發(fā)表于 09-12 17:30

    小白學大模型:大模型加速的秘密 FlashAttention 1/2/3

    在Transformer架構中,注意力機制的計算復雜度與序列長度(即文本長度)呈平方關系()。這意味著,當模型需要處理更長的文本時(比如從幾千個詞到幾萬個詞),計算時間和所需的內(nèi)存會急劇增加。最開始
    的頭像 發(fā)表于 09-10 09:28 ?4849次閱讀
    小白學大模型:大模型加速的秘密 FlashAttention 1/2/3

    AI的核心操控:從算法到硬件的協(xié)同進化

    到頂層的應用算法,共同構成AI的“智能引擎”。 算法層:模型架構與訓練控制 現(xiàn)代AI的核心是深度學習算法,其操控依賴于神經(jīng)網(wǎng)絡的結構設計和訓練過程的精細化調(diào)控。例如,Transformer架構通過自注意力
    的頭像 發(fā)表于 09-08 17:51 ?1022次閱讀

    【「DeepSeek 核心技術揭秘」閱讀體驗】+看視頻+看書籍+國產(chǎn)開源大模型DeepSeekV3技術詳解--1

    大小的潛在向量 (Latent Vector) c_t 中。同時,為了保證對近期上下文的精確感知,它依然會實時計算當前 token 的 K 和 V。 最終,注意力機制的計算將同時作用于“壓縮的歷史
    發(fā)表于 08-23 15:20

    如何在NVIDIA Blackwell GPU上優(yōu)化DeepSeek R1吞吐量

    開源 DeepSeek R1 模型的創(chuàng)新架構包含多頭潛在注意力機制 (MLA) 和大型稀疏混合專家模型 (MoE),其顯著提升了大語言模型 (LLM) 的推理效率。
    的頭像 發(fā)表于 08-12 15:19 ?4318次閱讀
    如何在NVIDIA Blackwell GPU上優(yōu)化DeepSeek R1吞吐量

    數(shù)智化時代企業(yè)IT基礎架構何去何從

    隨著AI迅猛發(fā)展,算、存、運力成了新戰(zhàn)場,從拼資源到拼底座、拼架構,那怎樣的基礎架構能撐得起企業(yè)AI的全場景落地?一起來看企業(yè)如何用AI-Ready打開增長新局。
    的頭像 發(fā)表于 08-06 11:20 ?968次閱讀

    【「DeepSeek 核心技術揭秘」閱讀體驗】第三章:探索 DeepSeek - V3 技術架構的奧秘

    一、模型架構 在閱讀第三章關于 DeepSeek 的模型架構部分時,我仿佛打開了一扇通往人工智能核心構造的大門。從架構圖中,能清晰看到 Transformer 塊、前饋神經(jīng)網(wǎng)絡、注意力
    發(fā)表于 07-20 15:07

    【「算芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】+NVlink技術從應用到原理

    工作者身份的轉變期),便對這項技術深深癡迷,但當時主流的RTX20系列,需要2080級別以上的才支持,鑒于個人實力,便目光放在了9系卡上,這也就是「算芯片 | 書中講的pascal架構的第一代
    發(fā)表于 06-18 19:31

    偉創(chuàng)與麻省理工學院 (MIT) 就其全新的“新制造倡議”(INM) 達成戰(zhàn)略合作

    行業(yè)巨擘+全球頂級學府? 近日,偉創(chuàng)與 麻省理工學院? (MIT) 就其 全新的“新制造倡議”(INM) 達成戰(zhàn)略合作 。作為INM行業(yè)聯(lián)盟的 創(chuàng)始成員 ,偉創(chuàng)將在這一項目中與MIT
    的頭像 發(fā)表于 06-10 09:30 ?1214次閱讀

    經(jīng)顱電刺激適應癥之tDCS治療注意力缺陷ADHD

    ADHD是常見神經(jīng)行為障礙,癥狀包括注意力不集中、多動和沖動,兒童和青少年患病率為5%-7.2%,成人在1%-10%,男孩多于女孩,成年后部分癥狀會持續(xù),引發(fā)多種并發(fā)癥,給個人、家庭和社會帶來
    的頭像 發(fā)表于 04-22 19:49 ?143次閱讀
    經(jīng)顱電刺激適應癥之tDCS治療<b class='flag-5'>注意力</b>缺陷ADHD