91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

TOPS 與現(xiàn)實(shí)世界的性能:AI 加速器的基準(zhǔn)性能

juju宇哥 ? 來(lái)源:juju宇哥 ? 作者:juju宇哥 ? 2022-07-14 17:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

蓬勃發(fā)展的機(jī)器學(xué)習(xí)人工智能新興用例有望通過(guò)加速信息處理和提高決策準(zhǔn)確性為行業(yè)創(chuàng)造重大價(jià)值。但機(jī)器學(xué)習(xí)模型是計(jì)算密集型、需要高頻和實(shí)時(shí) AI 分析場(chǎng)景,這導(dǎo)致企業(yè)依賴于使用每秒萬(wàn)億次操作 (TOPS) 指標(biāo)的性能指導(dǎo)。TOPS 捕捉到“加速器在一秒鐘內(nèi)可以提供多少數(shù)學(xué)運(yùn)算?” 比較和確定給定推理任務(wù)的最佳加速器。

雖然 TOPS 是一個(gè)“容易”計(jì)算的指標(biāo),但它通常無(wú)法為實(shí)際工作負(fù)載提供可靠的性能指標(biāo)。受限于加速器中乘法器和加法器的數(shù)量,該指標(biāo)無(wú)法考慮處理神經(jīng)網(wǎng)絡(luò)模型的計(jì)算硬件結(jié)構(gòu)。隨著數(shù)據(jù)網(wǎng)絡(luò)模型更快地處理數(shù)據(jù),企業(yè)如何通過(guò)更快、更可靠的決策進(jìn)行擴(kuò)展,尤其是在邊緣?

在這篇文章中,我們將回顧 TOPS、它在測(cè)量延遲方面的挑戰(zhàn)以及它與現(xiàn)實(shí)世界的性能計(jì)算有何不同,并提供一種通過(guò)基準(zhǔn)測(cè)試來(lái)計(jì)算性能的替代方法,它提供了一種更可靠的方法來(lái)解釋計(jì)算硬件結(jié)構(gòu)。

TOPS 作為績(jī)效衡量標(biāo)準(zhǔn)的現(xiàn)實(shí)

TOPS 是一個(gè)簡(jiǎn)化指標(biāo):它告訴您 AI 加速器在一秒鐘內(nèi)可以處理多少計(jì)算操作,并且利用率為 100%。本質(zhì)上,它著眼于加速器可以在很短的時(shí)間內(nèi)解決多少數(shù)學(xué)運(yùn)算問(wèn)題。

例如,如果一個(gè) AI 加速器提供 5 TOPS,另一個(gè)提供 15 TOPS,則推斷后者比前者快三倍。但是,就像 CPU 速度的兆赫茲和千兆赫茲一樣,TOPS 也失去了確定整體計(jì)算機(jī)性能的相關(guān)性。隨著人們對(duì) AI 應(yīng)用的興趣日益濃厚,最新的 AI 加速器可以比簡(jiǎn)單的算術(shù)更快地處理數(shù)據(jù),并且更復(fù)雜。

然而,TOPS 很少準(zhǔn)確地捕捉到 AI 處理器在整個(gè)硬件設(shè)備中的重要性。如今,相機(jī)、邊緣服務(wù)器和計(jì)算機(jī)中的 AI 處理器通常是決定計(jì)算能力和能源效率的關(guān)鍵組件之一。事實(shí)上,TOPS 未能考慮到現(xiàn)實(shí)世界的工作量。通常,由于諸如空閑計(jì)算機(jī)單元等待來(lái)自內(nèi)存的數(shù)據(jù)、加速器不同部分之間的同步開銷和控制開銷等因素,實(shí)際性能可能會(huì)顯著低于 TOPS 值。根據(jù)加速器的架構(gòu)和工作負(fù)載特性,

更高的 TOPS 不等于更高的性能

雖然較高的 TOPS 值可以表示具有更多計(jì)算元素的更大 AI 加速器,但現(xiàn)實(shí)情況可能恰恰相反。更高的 TOPS 通常會(huì)導(dǎo)致更大的加速器具有更多的計(jì)算元素和內(nèi)存塊,以將數(shù)據(jù)饋送到這些計(jì)算單元,這會(huì)導(dǎo)致更高的成本和功耗。另一方面,高效的加速器使用較少數(shù)量的計(jì)算資源提供更高的性能,因此 TOPS 評(píng)級(jí)較低。最終,理想的 AI 加速器是使用低 TOPS 提供高性能的加速器。

TOPS 不包括所有計(jì)算類型

TOPS 指標(biāo)考慮了加速器的乘法器和加法器,這通常會(huì)導(dǎo)致性能指標(biāo)不準(zhǔn)確,因?yàn)榧铀倨骺梢該碛谐酥獾钠渌?jì)算資源。例如,Kinara 的架構(gòu)采用歸約樹而不是加法器陣列,從而顯著降低能耗。由于在此計(jì)算中未捕獲歸約樹的計(jì)算能力,TOPS 指標(biāo)將不夠準(zhǔn)確。ResNet50、MobileNet V1 和 YOLO_v3 等標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)在比較不同的加速器時(shí)非常有用,因?yàn)樗鼈円部梢杂米鳌安聹y(cè)”給定加速器是否能夠滿足開發(fā)人員自身工作負(fù)載需求的代理。

推理延遲是評(píng)估 AI 加速器性能的指標(biāo)

對(duì)于在 Edge AI 上進(jìn)行投資的企業(yè),通過(guò)基準(zhǔn)測(cè)試計(jì)算性能提供了一種可靠的方法來(lái)計(jì)算計(jì)算硬件結(jié)構(gòu)與 TOPS。由于大多數(shù)實(shí)際應(yīng)用程序需要極快的推理時(shí)間,因此衡量性能的最佳方法是運(yùn)行特定的工作負(fù)載,通常是 ResNet-50、EfficientDet、Transformer 或自定義模型,以了解加速器的效率。使用不同類型、大小、拓?fù)浜洼斎敕直媛实木W(wǎng)絡(luò)進(jìn)行實(shí)時(shí)處理,可以得出推理延遲度量。該指標(biāo)計(jì)算加速器完成一個(gè)特定 AI 模型的干擾的執(zhí)行時(shí)間。

隨著 AI 工作負(fù)載及其支持計(jì)算架構(gòu)的發(fā)展,通過(guò)準(zhǔn)確的性能測(cè)量確保其可預(yù)測(cè)性具有重大影響,可以引導(dǎo)開發(fā)人員做出更優(yōu)化的決策。通過(guò)使用推理延遲計(jì)算,它有助于處理和預(yù)測(cè)現(xiàn)代 AI 工作負(fù)載中的數(shù)據(jù)流,即使這些工作負(fù)載碎片化并且新架構(gòu)的發(fā)展導(dǎo)致更多的不可預(yù)測(cè)性。最終,基準(zhǔn)測(cè)試應(yīng)用程序提供了一種可信且更可靠的 TOPS 替代方案,而 AI 加速器支持更有效的評(píng)估。

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 加速器
    +關(guān)注

    關(guān)注

    2

    文章

    839

    瀏覽量

    40106
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39793

    瀏覽量

    301446
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    新品 | LLM-8850 Kit,高性能AI加速卡套件 DinMeter v1.1,1/32DIN標(biāo)準(zhǔn)嵌入式開發(fā)板

    LLM-8850KitLLM-8850Kit是一款面向邊緣AI與嵌入式計(jì)算場(chǎng)景的高性能AI加速卡套件,由LLM-8850CardAI加速卡與
    的頭像 發(fā)表于 01-30 16:11 ?1046次閱讀
    新品 | LLM-8850 Kit,高<b class='flag-5'>性能</b><b class='flag-5'>AI</b><b class='flag-5'>加速</b>卡套件 DinMeter v1.1,1/32DIN標(biāo)準(zhǔn)嵌入式開發(fā)板

    瑞芯微SOC智能視覺(jué)AI處理

    RK1126B的基礎(chǔ)上,增加了H.264/H.265視頻編碼能力的“全能型”視覺(jué)AI處理,實(shí)現(xiàn)編解碼+AI分析一體化基礎(chǔ): 完全繼承了RK1126B的所有特性,包括2TOPS NPU
    發(fā)表于 12-19 13:44

    重磅合作!Quintauris 聯(lián)手 SiFive,加速 RISC-V 在嵌入式與 AI 領(lǐng)域落地

    (ADAS); 嵌入式平臺(tái)的 AI 與機(jī)器學(xué)習(xí)加速器; 工業(yè)物聯(lián)網(wǎng)與自動(dòng)化系統(tǒng)(開放標(biāo)準(zhǔn)架構(gòu)的優(yōu)勢(shì)能充分發(fā)揮)。 對(duì)咱們開發(fā)者來(lái)說(shuō),這波合作最大的好處就是能拿到集成式解決方案,不僅能縮短開發(fā)周期,還能
    發(fā)表于 12-18 12:01

    工業(yè)級(jí)-專業(yè)液晶圖形顯示加速器RA8889ML3N簡(jiǎn)介+顯示方案選型參考表

    本帖最后由 MTCN2013 于 2025-11-17 15:23 編輯 專業(yè)液晶圖形顯示加速器能夠有效減少對(duì)MCU運(yùn)算資源的占用,對(duì)于只需普通單片機(jī)運(yùn)算資源的儀器儀表來(lái)說(shuō),專業(yè)圖形顯示加速器
    發(fā)表于 11-14 16:03

    邊緣計(jì)算中的AI加速器類型與應(yīng)用

    提升AI應(yīng)用的性能。在邊緣計(jì)算中,有多種類型的AI加速器,各自具有不同的優(yōu)勢(shì)、局限性和適用場(chǎng)景。AI加速
    的頭像 發(fā)表于 11-06 13:42 ?818次閱讀
    邊緣計(jì)算中的<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>類型與應(yīng)用

    亞馬遜云科技第三期創(chuàng)業(yè)加速器圓滿收官 助力初創(chuàng)釋放Agentic AI潛力 加速全球化進(jìn)程

    北京——2025年10月28日 ,亞馬遜云科技第三期創(chuàng)業(yè)加速器項(xiàng)目圓滿收官。35家入營(yíng)企業(yè)齊聚一堂,分享了各自的業(yè)務(wù)發(fā)展情況,以及參與本期加速器的收獲及體驗(yàn)。第三期創(chuàng)業(yè)加速器持續(xù)聚焦AI
    的頭像 發(fā)表于 10-29 15:18 ?933次閱讀

    英特爾Gaudi 2E AI加速器為DeepSeek-V3.1提供加速支持

    英特爾? Gaudi 2EAI加速器現(xiàn)已為DeepSeek-V3.1提供深度優(yōu)化支持。憑借出色的性能和成本效益,英特爾Gaudi 2E以更低的投入、更高的效率,實(shí)現(xiàn)從模型訓(xùn)練的深度突破到推理部署的實(shí)時(shí)響應(yīng),為大模型的加速落地提供
    的頭像 發(fā)表于 08-26 19:18 ?3028次閱讀
    英特爾Gaudi 2E <b class='flag-5'>AI</b><b class='flag-5'>加速器</b>為DeepSeek-V3.1提供<b class='flag-5'>加速</b>支持

    Arm神經(jīng)技術(shù)是業(yè)界首創(chuàng)在 Arm GPU 上增添專用神經(jīng)加速器的技術(shù),移動(dòng)設(shè)備上實(shí)現(xiàn)PC級(jí)別的AI圖形性能

    Arm 神經(jīng)技術(shù)是業(yè)界首創(chuàng)在 Arm GPU 上增添專用神經(jīng)加速器的技術(shù),首次在移動(dòng)設(shè)備上實(shí)現(xiàn) PC 級(jí)別的 AI 圖形性能,為未來(lái)的端側(cè) AI 創(chuàng)新奠定基礎(chǔ) 神經(jīng)超級(jí)采樣是 Arm
    的頭像 發(fā)表于 08-14 17:59 ?2767次閱讀

    粒子加速器?——?科技前沿的核心裝置

    粒子加速器全稱“荷電粒子加速器”,是一種利用電磁場(chǎng)在高真空環(huán)境中對(duì)帶電粒子(如電子、質(zhì)子、離子)進(jìn)行加速和控制,使其獲得高能量的特種裝置。粒子加速器技術(shù)現(xiàn)已發(fā)展成為集高能物理、核物理、
    的頭像 發(fā)表于 06-19 12:05 ?3602次閱讀
    粒子<b class='flag-5'>加速器</b>?——?科技前沿的核心裝置

    芯原可擴(kuò)展的高性能GPGPU-AI計(jì)算IP賦能汽車與邊緣服務(wù)AI解決方案

    與人工智能 (AI) 加速器相融合,這些IP在熱和功耗受限的環(huán)境下,能夠高效支持大語(yǔ)言模型 (LLM) 推理、多模態(tài)感知以及實(shí)時(shí)決策等復(fù)雜的AI工作負(fù)載。 芯原的GPGPU-AI計(jì)算I
    的頭像 發(fā)表于 06-16 10:44 ?1370次閱讀

    開售RK3576 高性能人工智能主板

    AI 神經(jīng)網(wǎng)絡(luò)處理 NPU,運(yùn)算性能高達(dá) 6.0TOPS,支持多種 AI 開發(fā)工具和接口。支持 雙屏異顯功能,支持 LVDS 接口 10
    發(fā)表于 04-23 10:55

    樹莓派 AI HAT+ !到手了!我來(lái)教你安裝!

    Hailo-8L和Hailo-8神經(jīng)網(wǎng)絡(luò)推理加速器,提供13和26太赫茲/秒(TOPS)兩種型號(hào)。13TOPS變體最適合處理中等工作量,性能與AIKit相似。26
    的頭像 發(fā)表于 03-25 09:39 ?1448次閱讀
    樹莓派 <b class='flag-5'>AI</b> HAT+ !到手了!我來(lái)教你安裝!

    Banana Pi 發(fā)布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 計(jì)算與嵌入式開發(fā)

    低功耗特性。搭載 Renesas 獨(dú)有的 DRP-AI 加速器,支持 15 Sparse TOPSAI 計(jì)算能力,使其在計(jì)算機(jī)視覺(jué)、邊緣 AI
    發(fā)表于 03-19 17:54

    嵌入式AI加速器DRP-AI 詳細(xì)介紹

    的嵌入式設(shè)備。此外,人工智能正在不斷發(fā)展,新的算法不時(shí)被開發(fā)出來(lái)。 在人工智能快速發(fā)展的過(guò)程中,瑞薩開發(fā)了人工智能加速器(DRP-AI)和軟件(DRP-AI翻譯),既提供高
    的頭像 發(fā)表于 03-15 16:13 ?1807次閱讀
    嵌入式<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>DRP-<b class='flag-5'>AI</b> 詳細(xì)介紹

    AI MPU# 瑞薩RZ/V2H 四核視覺(jué) ,采用 DRP-AI3 加速器和高性能實(shí)時(shí)處理

    RZ/V2H 高端 AI MPU 采用瑞薩電子專有的AI 加速器-動(dòng)態(tài)可重配置處理 (DRP-AI3)、四核 Arm^?^ Cortex
    的頭像 發(fā)表于 03-15 11:50 ?2244次閱讀
    <b class='flag-5'>AI</b> MPU# 瑞薩RZ/V2H 四核視覺(jué) ,采用 DRP-<b class='flag-5'>AI</b>3 <b class='flag-5'>加速器</b>和高<b class='flag-5'>性能</b>實(shí)時(shí)處理<b class='flag-5'>器</b>