91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

總結過去三年,MIT發(fā)布AI加速器綜述論文

OpenCV學堂 ? 來源:機器之心 ? 作者:機器之心 ? 2022-11-16 15:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

過去幾年,關于人工智能機器學習加速器的發(fā)展進行到哪一階段了?來自 MIT 的研究者通過一篇綜述性文章總結了過去三年關于 AI 加速器和處理器的調查。

過去這一年,無論是初創(chuàng)公司還是成熟大廠,預告、發(fā)布和部署人工智能(AI)和機器學習(ML)加速器的步伐很緩慢。但這并非不合理,對于許多發(fā)布加速器報告的公司來說,他們花三到四年的時間研究、分析、設計、驗證和對加速器設計的權衡,并構建對加速器進行編程的技術堆棧。對于那些已發(fā)布升級版本加速器的公司來說,雖然他們報告的開發(fā)周期更短,但至少還是要兩三年。這些加速器的重點仍然是加速深層神經(jīng)網(wǎng)絡(DNN)模型,應用場景從極低功耗嵌入式語音識別和圖像分類到數(shù)據(jù)中心大模型訓練,典型的市場和應用領域的競爭仍在繼續(xù),這是工業(yè)公司和技術公司從現(xiàn)代傳統(tǒng)計算向機器學習解決方案轉變的重要部分。

人工智能生態(tài)系統(tǒng)將邊緣計算、傳統(tǒng)高性能計算(HPC)和高性能數(shù)據(jù)分析(HPDA)的組件結合在一起,這些組件必須協(xié)同工作,才能有效地給決策者、一線人員和分析師賦能。圖 1 展示了這種端到端 AI 解決方案及其組件的架構概覽。

b76584ba-64fa-11ed-8abf-dac502259ad0.png

原始數(shù)據(jù)首先需要進行數(shù)據(jù)規(guī)整,在該步驟中數(shù)據(jù)被融合、聚合、結構化、累積并轉換為信息。數(shù)據(jù)規(guī)整步驟生成的信息作為神經(jīng)網(wǎng)絡等有監(jiān)督或無監(jiān)督算法的輸入,這些算法可提取模式、填充缺失數(shù)據(jù)或查找數(shù)據(jù)集之間的相似性、進行預測,從而將輸入信息轉換為可操作的知識。這些可操作的知識將會傳遞給人類,用于人機協(xié)作階段的決策過程。人機協(xié)作階段為用戶提供有用且重要的洞察,將知識轉化為可操作的智能或洞察力。

支撐這個系統(tǒng)的是現(xiàn)代計算系統(tǒng)。摩爾定律的趨勢已經(jīng)結束,但同時還有許多相關的定律和趨勢被提出來,如 Denard 定律(功率密度)、時鐘頻率、核心數(shù)、每時鐘周期的指令和每焦耳的指令(Koomey 定律)。從最早出現(xiàn)在汽車應用、機器人智能手機中的片上系統(tǒng)(SoC)趨勢來看,通過開發(fā)和集成常用內核、方法或功能的加速器,其創(chuàng)新仍在不斷進步。這些加速器在性能和功能靈活性之間存在不同的平衡,包括深度學習處理器和加速器的創(chuàng)新爆發(fā)。通過閱讀大量相關論文,本文探討了這些技術的相對優(yōu)勢,因為它們對于將人工智能應用于對大小、重量和功率等有極大要求的嵌入式系統(tǒng)和數(shù)據(jù)中心時特別重要。

本文是對 IEEE-HPEC 過去三年論文的一次更新。與過去幾年一樣,本文繼續(xù)關注深度神經(jīng)網(wǎng)絡(DNN)和卷積神經(jīng)網(wǎng)絡(CNN)的加速器和處理器,它們的計算量極大。本文主要針對加速器和處理器在推理方面的發(fā)展,因為很多 AI/ML 邊緣應用極度依賴推理。本文針對加速器支持的所有數(shù)字精度類型,但對于大多數(shù)加速器來說,它們的最佳推理性能是 int8 或 fp16/bf16(IEEE 16 位浮點或 Google 的 16 位 brain float)。

b79413ca-64fa-11ed-8abf-dac502259ad0.png

論文鏈接:https://arxiv.org/pdf/2210.04055.pdf

目前,已經(jīng)有很多探討 AI 加速器的論文。如本系列調查的第一篇論文就有探討某些 AI 模型的 FPGA 的峰值性能,之前的調查都深入覆蓋了 FPGA,因此不再包含在本次調查中。這項持續(xù)調查工作和文章旨在收集一份全面的 AI 加速器列表,包括它們的計算能力、能效以及在嵌入式和數(shù)據(jù)中心應用中使用加速器的計算效率。與此同時文章主要比較了用于政府和工業(yè)傳感器和數(shù)據(jù)處理應用的神經(jīng)網(wǎng)絡加速器。前幾年論文中包含的一些加速器和處理器已被排除在今年的調查之外,之所以放棄它們,是因為它們可能已經(jīng)被同一家公司的新加速器替代、不再維護或者與主題不再相關。

處理器調查

人工智能的許多最新進展部分原因要歸功于硬件性能的提升,這使得需要巨大算力的機器學習算法,尤其是 DNN 等網(wǎng)絡能夠實現(xiàn)。本文的這次調查從公開可用的材料中收集各類信息,包括各種研究論文、技術期刊、公司發(fā)布的基準等。雖然還有其他方法獲取公司和初創(chuàng)公司(包括那些處于沉默期的公司)的信息,但本文在本次調查時忽略了這些信息,這些數(shù)據(jù)將在公開后納入該調查。該公共數(shù)據(jù)的關鍵指標如下圖所示,其反映了最新的處理器峰值性能與功耗的關系能力(截至 2022 年 7 月)。

b7c1485e-64fa-11ed-8abf-dac502259ad0.png

注意:圖 2 中虛線方框與下圖 3 是對應的,圖 3 是把虛線框放大后的圖。

b8022914-64fa-11ed-8abf-dac502259ad0.png

圖中 x 軸表示峰值功率,y 軸表示每秒峰值千兆操作數(shù)(GOps/s),均為對數(shù)尺度。處理能力的計算精度用不同幾何形狀表示,計算精度范圍從 int1 到 int32、從 fp16 到 fp64。顯示的精度有兩種類型,左邊代表乘法運算的精度,右邊代表累加 / 加運算的精度(如 fp16.32 表示 fp16 乘法和 fp32 累加 / 加)。使用顏色和形狀區(qū)分不同類型系統(tǒng)和峰值功率。藍色表示單芯片;橙色表示卡;綠色表示整體系統(tǒng)(單節(jié)點桌面和服務器系統(tǒng))。此次調查僅限于單主板、單內存系統(tǒng)。圖中空心幾何圖形是僅進行推理加速器的最高性能,而實心幾何圖形代表執(zhí)行訓練和推理的加速器的性能。

本次調查中本文以過去三年調查數(shù)據(jù)的散點圖開篇。下表 1 中本文總結了加速器、卡和整體系統(tǒng)的一些重要元數(shù)據(jù),包括圖 2 中每個點的標簽,許多要點都是從去年的調查中提出來的。表 1 中大多數(shù)列和條目都是準確清楚的。但有兩個技術條目可能不是:Dataflow 和 PIM。Dataflow 型處理器是為神經(jīng)網(wǎng)絡推理和訓練定制的處理器。由于神經(jīng)網(wǎng)絡訓練和推理計算完全確定地構建,因此它們適合 dataflow 處理,其中計算、內存訪問和 ALU 間通信被顯式 / 靜態(tài)編程或者布局布線到計算硬件。內存處理器(PIM)加速器將處理元素與內存技術集成在一起。在這些 PIM 加速器中,有一些基于模擬計算技術的加速器,該技術使用就地模擬乘法加法功能增強閃存電路。可以參考 Mythic 和 Gyrfalcon 加速器的相關資料,了解關于此創(chuàng)新技術的更多詳細信息。

b8284b94-64fa-11ed-8abf-dac502259ad0.png

本文根據(jù)加速器的預期應用對其進行合理分類,圖 1 用橢圓標識了五類加速器,根據(jù)性能和功耗做對應:功耗非常低,傳感器非常小的語音處理;嵌入式攝像機、小型無人機和機器人;駕駛輔助系統(tǒng)、自動駕駛和自動機器人;數(shù)據(jù)中心的芯片和卡;數(shù)據(jù)中心系統(tǒng)。

大多數(shù)加速器的性能、功能等指標都沒有改變,可以參閱過去兩年的論文以了解相關信息。下面的是沒有被過去的文章所收錄的加速器。

荷蘭嵌入式系統(tǒng)初創(chuàng)公司 Acelera 聲稱他們生產(chǎn)的嵌入式測試芯片具有數(shù)字和模擬設計能力,而這種測試芯片是為了測試數(shù)字設計能力的范圍。他們希望在未來的工作中增加模擬(也可能是閃存)設計要素。

Maxim Integrated 發(fā)布了一款名為 MAX78000 用于超低功耗應用的系統(tǒng)芯片(SoC)。其包括 ARM CPU 內核、RISC-V CPU 內核和 AI 加速器。ARM 核心用于快速原型設計和代碼重用,而 RISC-V 核心用于實現(xiàn)優(yōu)化,以實現(xiàn)最低的功耗。AI 加速器有 64 個并行處理器,支持 1 位、2 位、4 位和 8 位整數(shù)運算。SoC 的最大工作功率為 30mW,適用于低延遲、電池供電的應用。

Tachyum 最近發(fā)布名為 Prodigy 一體式處理器,Prodigy 每個核心都集成 CPU 和 GPU 的功能,它是為 HPC 和機器學習應用程序設計的,該芯片有 128 個高性能統(tǒng)一內核,運行頻率為 5.7GHz。

NVIDIA 于 2022 年 3 月發(fā)布了名為 Hopper(H100)的下一代 GPU。Hopper 集成更多的 Symmetric Multiprocessor(SIMD 和 Tensor 核),50% 的內存帶寬,SXM 夾層卡實例的功率為 700W。(PCIe 卡功率為 450W)

過去幾年 NVIDIA 發(fā)布了一系列系統(tǒng)平臺,用于部署在汽車、機器人和其他嵌入式應用程序 Ampere 架構的 GPU。對于汽車應用,DRIVE AGX 平臺增加了兩個新系統(tǒng):DRIVE AGX L2 可在 45W 功率范圍內實現(xiàn) 2 級自動駕駛,DRIVE AGX L5 可在 800W 功率范圍內能實現(xiàn) 5 級自動駕駛。Jetson AGX Orin 和 Jetson NX Orin 也使用 Ampere 架構 GPU,用于機器人、工廠自動化等,它們最大峰值功率為 60W 和 25W。

Graphcore 發(fā)布其第二代加速器芯片 CG200,它部署在 PCIe 卡上,峰值功率約為 300W。去年,Graphcore 還推出 Bow 加速器,這是與臺積電合作設計的首款晶圓對晶圓處理器。加速器本身與上面提到的 CG200 相同,但它與第二塊晶片配合使用,從而大大改善了整個 CG200 芯片的功率和時鐘分布。這意味著性能提高了 40% 以及 16% 每瓦特的性能提升。

2021 年 6 月,谷歌宣布了其第四代純推理 TPU4i 加速器的詳細信息。將近一年后,谷歌分享了其第 4 代訓練加速器 TPUv4 的詳細信息。雖然官宣的細節(jié)很少,但他們分享了峰值功率和相關性能數(shù)值。與以前的 TPU 各種版本一樣,TPU4 可通過 Google Compute Cloud 獲得并用于內部操作。

接下來是對沒有出現(xiàn)在圖 2 中的加速器的介紹,其中每個版本都發(fā)布一些基準測試結果,但有的缺少峰值性能,有的沒有公布峰值功率,具體如下。

SambaNova 去年發(fā)布了一些可重構 AI 加速器技術的基準測試結果,今年也發(fā)布了多項相關技術并與阿貢國家實驗室合作發(fā)表了應用論文,不過 SambaNova 沒有提供任何細節(jié),只能從公開的資料估算其解決方案的峰值性能或功耗。

今年 5 月,英特爾 Habana 實驗室宣布推出第二代 Goya 推理加速器和 Gaudi 訓練加速器,分別命名為 Greco 和 Gaudi2。兩者性能都比之前版本表現(xiàn)好幾倍。Greco 是 75w 的單寬 PCIe 卡,而 Gaudi2 還是 650w 的雙寬 PCIe 卡(可能在 PCIe 5.0 插槽上)。Habana 發(fā)布了 Gaudi2 與 Nvidia A100 GPU 的一些基準比較,但沒有披露這兩款加速器的峰值性能數(shù)據(jù)。

Esperanto 已經(jīng)生產(chǎn)了一些 Demo 芯片,供三星和其他合作伙伴評估。該芯片是一個 1000 核 RISC-V 處理器,每個核都有一個 AI 張量加速器。Esperanto 已經(jīng)發(fā)布了部分性能指標,但它們沒有披露峰值功率或峰值性能。

特斯拉 AI Day 中,特斯拉介紹了他們定制的 Dojo 加速器以及系統(tǒng)的一些細節(jié)。他們的芯片具有 22.6 TF FP32 性能的峰值,但沒有公布每個芯片的峰值功耗,也許這些細節(jié)會在以后公布。

去年 Centaur Technology 推出一款帶有集成 AI 加速器的 x86 CPU,其擁有 4096 字節(jié)寬的 SIMD 單元,性能很有競爭力。但 Centaur 的母公司 VIA Technologies 將位于美國的處理器工程團隊賣給了 Intel,似乎已經(jīng)結束了 CNS 處理器的開發(fā)。

一些觀察以及趨勢

圖 2 中有幾個觀察值得一提,具體內容如下。

Int8 仍然是嵌入式、自主和數(shù)據(jù)中心推理應用程序的默認數(shù)字精度。這種精度對于使用有理數(shù)的大多數(shù) AI/ML 應用程序來說是足夠的。同時一些加速器使用 fp16 或 bf16。模型訓練使用整數(shù)表示。

在極低功耗的芯片中,除了用于機器學習的加速器之外,還沒發(fā)現(xiàn)其他額外功能。在極低功耗芯片和嵌入式類別中,發(fā)布片上系統(tǒng)(SoC)解決方案是很常見的,通常包括低功耗 CPU 內核、音頻和視頻模數(shù)轉換器ADC)、加密引擎、網(wǎng)絡接口等。SoC 的這些附加功能不會改變峰值性能指標,但它們確實會對芯片報告的峰值功率產(chǎn)生直接影響,所以在比較它們時這一點很重要。

嵌入式部分的變化不大,就是說計算性能和峰值功率足以滿足該領域的應用需求。

過去幾年,包括德州儀器在內的幾家公司已經(jīng)發(fā)布了 AI 加速器。而 NVIDIA 也發(fā)布了一些性能更好的汽車和機器人應用系統(tǒng),如前所述。在數(shù)據(jù)中心中,為了突破 PCIe v4 300W 的功率限制,PCIe v5 規(guī)格備受期待。

最后,高端訓練系統(tǒng)不僅發(fā)布了令人印象深刻的性能數(shù)據(jù),而且這些公司還發(fā)布了高度可擴展的互聯(lián)技術,將數(shù)千張卡連接在一起。這對于像 Cerebras、GraphCore、Groq、Tesla Dojo 和 SambaNova 這樣的數(shù)據(jù)流加速器尤其重要,這些加速器通過顯式 / 靜態(tài)編程或布局布線到計算硬件上的。這樣一來它使這些加速器能夠適應像 transformer 這種超大模型。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 加速器
    +關注

    關注

    2

    文章

    839

    瀏覽量

    40096
  • MIT
    MIT
    +關注

    關注

    3

    文章

    254

    瀏覽量

    24996
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136923

原文標題:總結過去三年,MIT發(fā)布AI加速器綜述論文

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    安路科技2025總結

    20262月6日,安路科技2025總結大會暨表彰盛典在上海圓滿召開,公司全員齊聚一堂,總結過去,展望未來。會上,公司管理層發(fā)表了主題為“擁抱變化,共同成長”的戰(zhàn)略展望。
    的頭像 發(fā)表于 02-24 11:25 ?569次閱讀

    使用NORDIC AI的好處

    ; 自定義 Neuton 模型博客] Axon NPU :集成在 nRF54LM20B 等高端 SoC 中的專用 AI 加速器,對 TensorFlow Lite 模型可實現(xiàn)最高約 15× 推理加速、顯著
    發(fā)表于 01-31 23:16

    奇異摩爾參編人工智能加速器互聯(lián)芯粒技術要求團體標準發(fā)布

    近日,中國電子工業(yè)標準化技術協(xié)會批準并發(fā)布了《人工智能超節(jié)點服務技術要求》等28項團體標準。其中由中國移動研究院牽頭、奇異摩爾產(chǎn)品市場&研發(fā)部門主要參編的《人工智能加速器互聯(lián)芯粒技術要求
    的頭像 發(fā)表于 01-09 11:20 ?577次閱讀
    奇異摩爾參編人工智能<b class='flag-5'>加速器</b>互聯(lián)芯粒技術要求團體標準<b class='flag-5'>發(fā)布</b>

    邊緣計算中的AI加速器類型與應用

    人工智能正在推動對更快速、更智能、更高效計算的需求。然而,隨著每秒產(chǎn)生海量數(shù)據(jù),將所有數(shù)據(jù)發(fā)送至云端處理已變得不切實際。這正是邊緣計算中AI加速器變得不可或缺的原因。這種專用硬件能夠直接在邊緣設備上
    的頭像 發(fā)表于 11-06 13:42 ?806次閱讀
    邊緣計算中的<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>類型與應用

    亞馬遜云科技第期創(chuàng)業(yè)加速器圓滿收官 助力初創(chuàng)釋放Agentic AI潛力 加速全球化進程

    北京——202510月28日 ,亞馬遜云科技第期創(chuàng)業(yè)加速器項目圓滿收官。35家入營企業(yè)齊聚一堂,分享了各自的業(yè)務發(fā)展情況,以及參與本期加速器的收獲及體驗。第
    的頭像 發(fā)表于 10-29 15:18 ?919次閱讀

    創(chuàng)客總部加入MathWorks加速器計劃

    融合落地的合作橋梁。MathWorks 加速器計劃將為創(chuàng)客總部旗下的5內成立且研發(fā)工程師少于 15 人 的初創(chuàng)公司提供一的 MATLAB 和 Simulink 許可證、全面的技術支持以及展示其技術或產(chǎn)品的聯(lián)合營銷機會。
    的頭像 發(fā)表于 08-22 10:00 ?1135次閱讀

    Andes晶心科技推出新一代深度學習加速器

    高效能、低功耗 32/64 位 RISC-V 處理核與 AI 加速解決方案的領導供貨商—Andes晶心科技(Andes Technology)今日正式發(fā)表最新深度學習加速器 Ande
    的頭像 發(fā)表于 08-20 17:43 ?2326次閱讀

    【免費送書】AI芯片,從過去走向未來:《AI芯片:前沿技術與創(chuàng)新未來》

    最重大的技術變革無疑就是大模型的橫空出世,人類的時間仿佛被裝上了加速器,從ChatGPT到DeepSeek,大模型應用密集出現(xiàn)、頻繁升級,這讓作者意識到有必要撰寫一本新的AI芯片圖書,以緊跟時代
    的頭像 發(fā)表于 07-29 08:06 ?1152次閱讀
    【免費送書】<b class='flag-5'>AI</b>芯片,從<b class='flag-5'>過去</b>走向未來:《<b class='flag-5'>AI</b>芯片:前沿技術與創(chuàng)新未來》

    【書籍評測活動NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》

    計算等類別AI芯片的及時、全面而富有遠見的書。” 那么時至今日,這個世界發(fā)生了什么變化呢? 在這四間,最重大的技術變革無疑就是大模型的橫空出世,人類的時間仿佛被裝上了加速器,從ChatGPT到
    發(fā)表于 07-28 13:54

    粒子加速器?——?科技前沿的核心裝置

    粒子加速器全稱“荷電粒子加速器”,是一種利用電磁場在高真空環(huán)境中對帶電粒子(如電子、質子、離子)進行加速和控制,使其獲得高能量的特種裝置。粒子加速器技術現(xiàn)已發(fā)展成為集高能物理、核物理、
    的頭像 發(fā)表于 06-19 12:05 ?3579次閱讀
    粒子<b class='flag-5'>加速器</b>?——?科技前沿的核心裝置

    直擊Computex2025:英特爾重磅發(fā)布新一代GPU,圖形和AI性能躍升3.4倍

    5月19日,在Computex 2025上,英特爾發(fā)布了最新全新圖形處理(GPU)和AI加速器產(chǎn)品系列。包括全新英特爾銳炫? Pro B系列GPU——英特爾銳炫Pro B60和英特爾
    的頭像 發(fā)表于 05-20 12:27 ?5439次閱讀
    直擊Computex2025:英特爾重磅<b class='flag-5'>發(fā)布</b>新一代GPU,圖形和<b class='flag-5'>AI</b>性能躍升3.4倍

    英特爾發(fā)布全新GPU,AI和工作站迎來新選擇

    英特爾推出面向準專業(yè)用戶和AI開發(fā)者的英特爾銳炫Pro GPU系列,發(fā)布英特爾? Gaudi 3 AI加速器機架級和PCIe部署方案 ? 2025
    發(fā)表于 05-20 11:03 ?1843次閱讀

    期 “亞馬遜云科技創(chuàng)業(yè)加速器” 正式啟動

    新 助力生成式 AI 初創(chuàng)企業(yè)釋放潛能,加速全球化進程 ? 北京 ——2025 4 月 18 日 亞馬遜云科技今日宣布,第期 "亞馬遜云科技創(chuàng)業(yè)
    發(fā)表于 04-18 10:46 ?1258次閱讀

    Banana Pi 發(fā)布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 計算與嵌入式開發(fā)

    []() 20253月19日——Banana Pi 今日正式發(fā)布 BPI-AI2N & BPI-AI2N Carrier,基于瑞薩電子(Renesas)同步
    發(fā)表于 03-19 17:54

    嵌入式AI加速器DRP-AI 詳細介紹

    的嵌入式設備。此外,人工智能正在不斷發(fā)展,新的算法不時被開發(fā)出來。 在人工智能快速發(fā)展的過程中,瑞薩開發(fā)了人工智能加速器(DRP-AI)和軟件(DRP-AI翻譯),既提供高性能又提供
    的頭像 發(fā)表于 03-15 16:13 ?1802次閱讀
    嵌入式<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>DRP-<b class='flag-5'>AI</b> 詳細介紹