91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI優(yōu)化的FPGA和GPU的芯片級對比

FPGA之家 ? 來源:FPGA之家 ? 作者:FPGA之家 ? 2021-03-29 14:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本部分,我們就跟隨作者一起看看Intel Stratix10 NX和Nvidia在這個領(lǐng)域的利器T4以及V100之間的對比,過程分為芯片級對比以及系統(tǒng)級對比。

本部分一起先來看看芯片級對比

首先來看下我們的GPU對手——Nvidia T4和V100分別有320個和640個張量核(專門用于AI工作負載的矩陣乘法引擎)

Nvidia Tesla T4

Nvidia Tesla V100

下面表格總結(jié)了與Stratix10 NX和這些同代工藝GPU的關(guān)鍵指標對比。 就die尺寸來說,V100是Nvidia最大的12nm GPU,幾乎比T4大50%,而Stratix10 NX比兩種GPU都小。

36bc17bc-8ecc-11eb-8b86-12bb97331649.png

首先,文章使用GPU最擅長處理的工作負載:通用矩陣乘(GEMM)來跑GPU的benchmark(什么是GEMM請移步https://spatial-lang.org/gemm),為了測量最佳的GPU性能,對每個器件使用最新的library,這些庫不會出錯,并且分別在使用和不使用張量核的情況下測試性能。對于fp32和fp16實驗,分別使用CUDA10.0和10.2的CuBLAS庫進行V100和T4。對于int8,我們使用CUDA10.2中的cuBLASLt庫,這樣可以比cuBLAS庫獲得更高的int8性能。文章使用Nvidia的官方(高度優(yōu)化)的cuDNN kernel來處理DL工作負載,并且分別對V100和T4使用了從cuDNN7.6.2和7.6.5。 (cuBLAS API,從cuda6.0開始;cuBLASLt API,從cuda10.1開始)

cuDNN庫不支持int8計算kernel,但它們支持將所有模型權(quán)重保存在片上內(nèi)存中。對于每個工作負載、問題大小和序列長度,文章在兩種GPU上運行了所有可能的配置組合,如精度{fp32、fp16、int8}、計算樣式{persistent、non-persistent}、張量核心設(shè)置{enable、disable}。然后,選擇最佳的性能,來和Stratix10 NX的NPU進行比較。 這里因為是芯片級對比,所以只考慮了芯核的計算效率,不包括任何初始化、芯核啟動或主機-GPU數(shù)據(jù)傳輸開銷。

下圖給出了T4和V100 GPU上fp32、fp16和int8精度的GEMM benchmark測試結(jié)果。結(jié)果表明,相對于張量核禁用情況(藍線),啟用張量核(紅線) 可以顯著提高GPU在GEMM上的性能。

3735e1d2-8ecc-11eb-8b86-12bb97331649.png

然而,一個普遍的趨勢是,張量核雖然是為GEMM設(shè)計的,但在矩陣大小為2048或以下情況時的利用效率明顯不如峰值情況(紅色虛線)。因此要實現(xiàn)高利用率,除非工作負載中的矩陣大小非常大,而這在實際DL工作負載中并不常見。T4和V100上的張量核都不支持fp32的精度,而是在執(zhí)行乘法運算之前,將fp32數(shù)據(jù)轉(zhuǎn)換為fp16。相對于純fp16 GEMM,這種數(shù)據(jù)轉(zhuǎn)換開銷降低了張量核性能。另一個有趣的情況是,當T4張量核在int8模式下工作時,它們需要將輸入矩陣從標準的行/列主要格式轉(zhuǎn)換為特定于張量核的布局。因此,即使在處理非常大的8192×8192矩陣時,在張量核(沒有標記的紅線)上實現(xiàn)的int8性能還不到峰值性能的45%。

為了更好地理解這種數(shù)據(jù)轉(zhuǎn)換的開銷,文章還進行了一個額外的實驗,在這個實驗中,對張量核進行了特殊布局(帶有標記的紅線)。即使不算矩陣布局變化的開銷,對于4096×4096及以下的矩陣大小,張量核利用率也小于40%,在6144×6144矩陣中利用率達到最高為72%。

下面來看看FPGA上的情況,上圖(Fig.6)的右上角那張圖比較了Stratix10 NX上的NPU性能與具有int8張量核的T4 GPU的性能。為了公平地比較,文章禁用了NPU兩個輸入矩陣其中一個的矩陣布局變換,只保留了對另一個輸入以及輸出矩陣的布局變換(因為NPU以標準格式使用和生成這些矩陣)。

雖然NPU是為矩陣向量運算而設(shè)計的,但它在GEMM工作負載上仍然實現(xiàn)了與T4相似的性能,其矩陣大小從512到3072不等(最大的矩陣可以fit進片上BRAM)。

最后,一起看看頂級FPGA和GPU的PK結(jié)果。下圖(Fig.7)將文章在Stratix10 NX上增強型NPU的性能與T4和V100的最佳性能進行比較。對于比較小的batch-3和batch-6情況,F(xiàn)PGA性能總是顯著高于兩個GPU。FPGA在batch-6(其設(shè)計為:雙核batch-3)中表現(xiàn)最好,平均性能分別是T4和V100的24.2x和11.7x。

與batch-6相比,F(xiàn)PGA在batch-3上的性能較低,因為兩個核中的一個完全空閑。然而,它仍然比T4和V100分別平均快了22.3x和9.3x。在batch size高于6時,如果batch size不能被6整除,則NPU可能不能被充分利用。例如,在batch size為8、32和256的情況下,NPU最多可以達到其batch-6性能的67%、89%和99%,而batch size為12、36和258(上圖中的虛線所示)可以達到100%的效率。在32輸入的中等batch size情況下,NX仍然比T4具有更好的性能,并且與V100性能相當。

即使在比較大的batch size情況下,NX的性能也比T4高58%,只比die size更大(大將近一倍)的V100低30%。這些結(jié)果表明,人工智能優(yōu)化的FPGA在低batch實時推理中不僅可以實現(xiàn)比GPU好一個數(shù)量級的性能,而且可以在放寬延遲約束下的高batch推理中和GPU匹敵。上圖(Fig.7)中的右下角圖總結(jié)了不同batch size情況下NX相對于CPU的平均加速情況。

上圖(Fig.7)中的右上角圖顯示了與不同batch大小下的兩個GPU相比,NX的平均利用率。NX在batch-6中的平均利用率為37.1%,而T4和V100分別僅為1.5%和3%。GPU張量核并非直接互連,它們只能接收來自本地核內(nèi)寄存器文件的輸入。因此,每個GPU張量核都必須發(fā)送它的partial result到全局內(nèi)存中,并與其他張量核同步,以結(jié)合這些partial result。然后GPU從全局內(nèi)存中讀取組合好的矢量來執(zhí)行進一步的操作,如激活函數(shù)(activation functions)。

較高的batch size可以攤銷這種同步延遲,但即使在batch-256情況下,T4和V100的利用率分別只有13.3%和17.8%。 另一方面,F(xiàn)PGA在架構(gòu)上也更具優(yōu)勢,其在張量塊之間有專用的用來做減法的互連, FPGA的可編程布線資源還允許將MVU tile和矢量單元級引擎級聯(lián)起來進行直接通信,減少了像GPU中那樣必須通過內(nèi)存通信的情況。

綜上可以看到,F(xiàn)PGA依靠架構(gòu)優(yōu)勢和超高的資源利用率,在AI性能PK上對GPU形成了強勁挑戰(zhàn)。下一篇,我們再來一起看看從系統(tǒng)角度,F(xiàn)PGA和GPU的對比情況以及功耗方面的分析。

原文標題:讀《超越巔峰性能:AI優(yōu)化的FPGA和GPU真實性能對比》:芯對芯

文章出處:【微信公眾號:FPGA之家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1660

    文章

    22415

    瀏覽量

    636491
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39805

    瀏覽量

    301479

原文標題:讀<超越巔峰性能:AI優(yōu)化的FPGA和GPU真實性能對比>:芯對芯

文章出處:【微信號:zhuyandz,微信公眾號:FPGA之家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    OrangePi RV2 深度技術(shù)評測:RISC-V AI融合架構(gòu)的先行者

    、PyTorch),但實際部署需針對性優(yōu)化 對比 :比樹莓派5(無專用NPU)強,但弱于Orange Pi 5 Max的6 TOPS NPU 2.3 GPU 與顯示 GPU :僅能驅(qū)動
    發(fā)表于 03-03 20:19

    奧迪威芯片級風(fēng)扇:面向高性能電子設(shè)備的芯片級主動熱管理方案

    芯片級風(fēng)扇代表了熱管理領(lǐng)域的一次范式轉(zhuǎn)變,從板或系統(tǒng)散熱轉(zhuǎn)向了精確的、芯片級的主動干預(yù)。其小型化、易于集成、高效運行和可擴展性的結(jié)合,使其成為下一代高性能、緊湊型電子產(chǎn)品不可或缺的
    的頭像 發(fā)表于 02-25 11:13 ?150次閱讀
    奧迪威<b class='flag-5'>芯片級</b>風(fēng)扇:面向高性能電子設(shè)備的<b class='flag-5'>芯片級</b>主動熱管理方案

    FPGA+GPU異構(gòu)混合部署方案設(shè)計

    為滿足對 “納秒實時響應(yīng)” 與 “復(fù)雜數(shù)據(jù)深度運算” 的雙重需求,“FPGA+GPU”異構(gòu)混合部署方案通過硬件功能精準拆分與高速協(xié)同,突破單一硬件的性能瓶頸 ——FPGA聚焦低延遲實時交易鏈路,
    的頭像 發(fā)表于 01-13 15:20 ?360次閱讀

    數(shù)字IC/FPGA設(shè)計中的時序優(yōu)化方法

    在數(shù)字IC/FPGA設(shè)計的過程中,對PPA的優(yōu)化是無處不在的,也是芯片設(shè)計工程師的使命所在。此節(jié)主要將介紹performance性能的優(yōu)化,如何對時序路徑進行
    的頭像 發(fā)表于 12-09 10:33 ?3287次閱讀
    數(shù)字IC/<b class='flag-5'>FPGA</b>設(shè)計中的時序<b class='flag-5'>優(yōu)化</b>方法

    FPGAGPU加速的視覺SLAM系統(tǒng)中特征檢測器研究

    特征檢測是SLAM系統(tǒng)中常見但耗時的模塊,隨著SLAM技術(shù)日益廣泛應(yīng)用于無人機等功耗受限平臺,其效率優(yōu)化尤為重要。本文首次針對視覺SLAM流程開展硬件加速特征檢測器的對比研究,通過對比現(xiàn)代SoC平臺
    的頭像 發(fā)表于 10-31 09:30 ?671次閱讀
    <b class='flag-5'>FPGA</b>和<b class='flag-5'>GPU</b>加速的視覺SLAM系統(tǒng)中特征檢測器研究

    蘋果AI革命:M5芯片10核GPU、AI處理速度翻倍,Apple Glass在路上

    三款核心設(shè)備。這一場蘋果圍繞M5芯片AI硬件的革新,也成為蘋果邁進AI時代以端側(cè)大模型和空間計算的又一成績。 ? ? 3nm+10核GPU革命,AI
    的頭像 發(fā)表于 10-19 01:13 ?1.1w次閱讀
    蘋果<b class='flag-5'>AI</b>革命:M5<b class='flag-5'>芯片</b>10核<b class='flag-5'>GPU</b>、<b class='flag-5'>AI</b>處理速度翻倍,Apple Glass在路上

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學(xué)應(yīng)用

    和量子計算的兩項新興的技術(shù),將在生產(chǎn)假說方面發(fā)揮重要作用,從而改變科學(xué)發(fā)現(xiàn)的范式。 生成式AI: 2、窮舉搜索 3、分析排錯與組合優(yōu)化 分析排錯是生成假說的重要手段。強化學(xué)習(xí)也在優(yōu)化假說組合、尋找科學(xué)發(fā)現(xiàn)
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    、Transformer 模型邊緣部署 3、智能手機AI芯片 3.1概述 智能手機中最大的一塊芯片就是應(yīng)用處理器(AP)。AP中集成了CPU、GPU、NPU、DSP、5G調(diào)制解調(diào)器、圖
    發(fā)表于 09-12 17:30

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰(zhàn)

    的工作嗎? 從書中也了解到了AI芯片都有哪些?像CPU、GPU、FPGA、ASIC都是AI芯片。
    發(fā)表于 09-12 16:07

    AI 芯片浪潮下,職場晉升新契機?

    職場、渴望在專業(yè)領(lǐng)域更進一步的人來說,AI 芯片與職稱評審之間,實則有著千絲萬縷的聯(lián)系,為職業(yè)晉升開辟了新的路徑。 AI 芯片領(lǐng)域細分與職稱對應(yīng) 目前,
    發(fā)表于 08-19 08:58

    PCIe協(xié)議分析儀能測試哪些設(shè)備?

    場景:監(jiān)測GPU與主機之間的PCIe通信,分析數(shù)據(jù)傳輸效率、延遲和帶寬利用率。 應(yīng)用價值:優(yōu)化大規(guī)模AI訓(xùn)練任務(wù)的數(shù)據(jù)加載和模型參數(shù)同步,例如在多GPU系統(tǒng)中測試PCIe交換機的性能和
    發(fā)表于 07-25 14:09

    漢思新材料|芯片級底部填充膠守護你的智能清潔機器人

    (消毒作業(yè))、商場(夜間保潔)等,技術(shù)融合AI視覺與機械臂,突破立體清潔瓶頸。2024年全球家庭機型出貨量超2000萬臺,商用市場增速達19.7%。漢思芯片級底部
    的頭像 發(fā)表于 07-04 10:43 ?970次閱讀
    漢思新材料|<b class='flag-5'>芯片級</b>底部填充膠守護你的智能清潔機器人

    ESD技術(shù)文檔:芯片級ESD與系統(tǒng)ESD測試標準介紹和差異分析

    ESD技術(shù)文檔:芯片級ESD與系統(tǒng)ESD測試標準介紹和差異分析
    的頭像 發(fā)表于 05-15 14:25 ?4602次閱讀
    ESD技術(shù)文檔:<b class='flag-5'>芯片級</b>ESD與系統(tǒng)<b class='flag-5'>級</b>ESD測試標準介紹和差異分析

    提升AI訓(xùn)練性能:GPU資源優(yōu)化的12個實戰(zhàn)技巧

    在人工智能與機器學(xué)習(xí)技術(shù)迅速發(fā)展的背景下,GPU計算資源的高效利用已成為關(guān)鍵技術(shù)指標。優(yōu)化GPU資源分配不僅能顯著提升模型訓(xùn)練速度,還能實現(xiàn)計算成本的有效控制。根據(jù)AI基礎(chǔ)設(shè)施聯(lián)盟2
    的頭像 發(fā)表于 05-06 11:17 ?1550次閱讀
    提升<b class='flag-5'>AI</b>訓(xùn)練性能:<b class='flag-5'>GPU</b>資源<b class='flag-5'>優(yōu)化</b>的12個實戰(zhàn)技巧

    概倫電子芯片級HBM靜電防護分析平臺ESDi介紹

    ESDi平臺是一款先進的芯片級ESD(靜電防護)驗證平臺,為設(shè)計流程的各個階段提供定制化解決方案。該平臺包括原理圖HBM(人體模型)檢查工具ESDi-SC,芯片級HBM檢查工具ESDi,和適用于多線程仿真的
    的頭像 發(fā)表于 04-22 10:25 ?1165次閱讀
    概倫電子<b class='flag-5'>芯片級</b>HBM靜電防護分析平臺ESDi介紹