91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)推斷應(yīng)用為什么應(yīng)該考慮專用硬件?

YCqV_FPGA_EETre ? 來源:賽靈思 ? 作者:Quenton Hall ? 2021-03-10 15:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2014 年,斯坦福大學(xué)教授 Mark Horowitz 發(fā)表了一篇題目為“計(jì)算的能源問題(以及我們?cè)撛趺崔k)”的論文。這篇具有深遠(yuǎn)意義的論文,討論了當(dāng)前半導(dǎo)體行業(yè)所面臨的最熱門的、與登納德縮放比例定律 (Dennard Scaling )和摩爾定律 (Moore’s Law) 失效相關(guān)的挑戰(zhàn)。

如果可以的話,我想借用并改編一下 Mark 的論文標(biāo)題,這樣我就可以就機(jī)器學(xué)習(xí)推斷應(yīng)用為什么應(yīng)該考慮專用硬件,分享一下我的一些觀點(diǎn)。

專用硬件加速實(shí)在必行

首先,讓我們考慮一下問題的癥結(jié)所在。大約在2005 年,處理器內(nèi)核時(shí)鐘頻率的增長(zhǎng)進(jìn)入了瓶頸??s小工藝尺寸和降低內(nèi)核電壓不再像以前一樣能夠?yàn)槲覀儙韮?yōu)勢(shì)。其根本的問題,就是計(jì)算已經(jīng)達(dá)到了功率密度(W/mm2)的極限。

如果我們?cè)谕粋€(gè)裸片上放置更多的內(nèi)核,我們就可以在相同的功耗預(yù)算下增加運(yùn)算數(shù)量,但其前提是我們還還要在一定程度上降低時(shí)鐘頻率,以抵消額外內(nèi)核所消耗的能量。AMD英特爾都是在 2005-2006 年期間發(fā)布了他們的首個(gè)雙核處理器,這并不是巧合。然而,隨著我們繼續(xù)嘗試增加內(nèi)核的數(shù)量,我們必須考慮每個(gè)運(yùn)算所消耗的能量和每個(gè)運(yùn)算所需的芯片面積。此外,我們還需要確保我們能夠通過 N 來有效地實(shí)現(xiàn)并行算法,其中 N 是內(nèi)核的數(shù)量。對(duì)于所有的算法來說,這一問題的通用解決方案,或者說“計(jì)算飽和的靈丹妙藥”仍然是一個(gè)難以捉摸的問題,現(xiàn)在最好的解決方法就是應(yīng)用“自適應(yīng)硬件”。

事實(shí)證明,無論您的處理器設(shè)計(jì)是使用多核 CPU、GPU 還是 SoC 實(shí)現(xiàn)的,在處理器級(jí)的總體功耗分布都將大致相同。

所以假若我們估算出以下的情況便較為接近真實(shí)情況:

內(nèi)核 = 30%

內(nèi)部存儲(chǔ)器(L1、L2、L3)= 30%

外部存儲(chǔ)器(DDR)= 40%

在上面的分析中,我們沒有考慮的是還存在另外一個(gè)總體優(yōu)化的方式,那就是專用硬件加速器優(yōu)化的實(shí)現(xiàn)方式。我們可以對(duì)專用硬件進(jìn)行優(yōu)化以極高效地執(zhí)行特定的功能。通常情況下,這種硬件是為了減少外部存儲(chǔ)器訪問而設(shè)計(jì)的,其同時(shí)減少了時(shí)延與功耗。我們可以對(duì)專用硬件進(jìn)行優(yōu)化,以便給定算法的數(shù)據(jù)運(yùn)動(dòng)部分使用本地化存儲(chǔ)器 (BlockRAM、UltraRAM) 來進(jìn)行中間結(jié)果的存儲(chǔ)。

設(shè)計(jì)高效的加速器是多維度的設(shè)計(jì)問題:

我們?nèi)绾螌?shí)現(xiàn)硬件優(yōu)化來處理我們的特定算法?(Mark 很好地回答了這一問題,即必須將算法從“所有算法的空間”移動(dòng)到“受限空間”。)

我們?nèi)绾伪3謹(jǐn)y帶數(shù)據(jù)的加速器,以確保我們的計(jì)算加速器在每個(gè)時(shí)鐘周期都是飽和的?

我們?nèi)绾巫畲笙薅鹊販p少通信開銷?

我們?nèi)绾蝺?yōu)化正在處理的運(yùn)算符的動(dòng)態(tài)范圍?

我們?nèi)绾巫畲笙薅鹊販p少外部存儲(chǔ)器,甚至是本地存儲(chǔ)器的使用?

我們?nèi)绾蜗噶钐幚砉艿篱_銷?

我們?nèi)绾伟才挪僮饕源_保數(shù)據(jù)重用,從而使存儲(chǔ)器流量最小化,并且使存儲(chǔ)器訪問相關(guān)的運(yùn)算數(shù)量最大化?

自適應(yīng)硬件的戰(zhàn)略優(yōu)勢(shì)這里,我們將討論和評(píng)估賽靈思的自適應(yīng)硬件及 DNNDK 如何應(yīng)對(duì)上述這些尖銳的問題和挑戰(zhàn),特別是當(dāng)它涉及到機(jī)器學(xué)習(xí)推斷時(shí)。在進(jìn)行下一次設(shè)計(jì)之前,我建議您回顧一下 Mark 有關(guān)這個(gè)主題的精彩演講,然后再考慮如何在您的下一次設(shè)計(jì)中使用自適應(yīng)硬件來實(shí)現(xiàn)您的戰(zhàn)略優(yōu)勢(shì)。

在這篇文章的第 2 部分中,我們將討論和評(píng)估賽靈思的自適應(yīng)硬件及 DNNDK (現(xiàn)在已經(jīng)發(fā)布Vitis AI 統(tǒng)一軟件平臺(tái)) 如何應(yīng)對(duì)這些挑戰(zhàn),特別是當(dāng)它涉及到機(jī)器學(xué)習(xí)推斷時(shí)。

原文標(biāo)題:人工智能引發(fā)能源問題,我們?cè)撛趺崔k?(一)

文章出處:【微信公眾號(hào):FPGA開發(fā)圈】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40642

    瀏覽量

    302300
  • 人工智能
    +關(guān)注

    關(guān)注

    1819

    文章

    50218

    瀏覽量

    266504

原文標(biāo)題:人工智能引發(fā)能源問題,我們?cè)撛趺崔k?(一)

文章出處:【微信號(hào):FPGA-EETrend,微信公眾號(hào):FPGA開發(fā)圈】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    全志科技MR153系列四核機(jī)器專用芯片發(fā)布

    機(jī)器人產(chǎn)品開發(fā)流程的痛點(diǎn)出發(fā),全志MR153系列芯片以更精簡(jiǎn)的硬件設(shè)計(jì)、更可靠的安全合規(guī)、更優(yōu)的低功耗表現(xiàn),優(yōu)化了大部分智能機(jī)器人的核心開發(fā)難題。同時(shí),憑借高度靈活的軟硬件配置,MR
    的頭像 發(fā)表于 03-19 10:08 ?640次閱讀
    全志科技MR153系列四核<b class='flag-5'>機(jī)器</b>人<b class='flag-5'>專用</b>芯片發(fā)布

    人工智能與機(jī)器學(xué)習(xí)在這些行業(yè)的深度應(yīng)用

    自人工智能和機(jī)器學(xué)習(xí)問世以來,多個(gè)在線領(lǐng)域的數(shù)字化格局迎來了翻天覆地的變化。這些技術(shù)從誕生之初就為企業(yè)賦予了競(jìng)爭(zhēng)優(yōu)勢(shì),而在線行業(yè)正是受其影響最為顯著的領(lǐng)域。人工智能(AI)與機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 02-04 14:44 ?622次閱讀

    SWD端口復(fù)用為GPIO功能

    使用庫函數(shù)把SWD下載端口PA13 PA14 分別復(fù)用為UART0_RXD UART0_TXD的方法 SWD一般用于MCU的調(diào)試,用戶使用Keil MDK或IAR等開發(fā)工具時(shí),可使用該調(diào)試接口進(jìn)行
    發(fā)表于 01-29 06:56

    機(jī)器視覺系統(tǒng)關(guān)鍵硬件之一-工業(yè)相機(jī)(以Dalsa為例)

    機(jī)器視覺系統(tǒng)的硬件之一工業(yè)相機(jī)的原理及主要參數(shù)。
    的頭像 發(fā)表于 01-15 17:31 ?315次閱讀
    <b class='flag-5'>機(jī)器</b>視覺系統(tǒng)關(guān)鍵<b class='flag-5'>硬件</b>之一-工業(yè)相機(jī)(以Dalsa為例)

    機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個(gè)常見錯(cuò)誤與局限性

    無論你是剛?cè)腴T還是已經(jīng)從事人工智能模型相關(guān)工作一段時(shí)間,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中都存在一些我們需要時(shí)刻關(guān)注并銘記的常見錯(cuò)誤。如果對(duì)這些錯(cuò)誤置之不理,日后可能會(huì)引發(fā)諸多麻煩!只要我們密切關(guān)注數(shù)據(jù)、模型架構(gòu)
    的頭像 發(fā)表于 01-07 15:37 ?297次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個(gè)常見錯(cuò)誤與局限性

    NPB 2.0:網(wǎng)絡(luò)可視化告別“專用硬件”?

    傳統(tǒng)的基于專用硬件的實(shí)現(xiàn)方案,例如使用TAP交換機(jī)/分流器等采集設(shè)備,其初期購置和維護(hù)成本顯而易見,并且隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大,采購和運(yùn)維費(fèi)用都將繼續(xù)增長(zhǎng)。NPB 2.0是基于 SONiC 的開放網(wǎng)絡(luò)技術(shù)棧的前沿實(shí)踐。
    的頭像 發(fā)表于 11-24 16:45 ?1675次閱讀
    NPB 2.0:網(wǎng)絡(luò)可視化告別“<b class='flag-5'>專用</b><b class='flag-5'>硬件</b>”?

    risc-v中浮點(diǎn)運(yùn)算單元的使用及其設(shè)計(jì)考慮

    RISC-V浮點(diǎn)運(yùn)算單元(floating-point unit,簡(jiǎn)稱FPU)是一種專門用于執(zhí)行浮點(diǎn)運(yùn)算的硬件加速器,其作用是提高浮點(diǎn)運(yùn)算速度,在科學(xué)計(jì)算、圖像處理和機(jī)器學(xué)習(xí)等應(yīng)用領(lǐng)域有著廣泛
    發(fā)表于 10-21 14:46

    FPGA在機(jī)器學(xué)習(xí)中的具體應(yīng)用

    隨著機(jī)器學(xué)習(xí)和人工智能技術(shù)的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無法滿足高效處理大規(guī)模數(shù)據(jù)和復(fù)雜模型的需求。FPGA(現(xiàn)場(chǎng)可編程門陣列)作為一種靈活且高效的硬件加速平臺(tái)
    的頭像 發(fā)表于 07-16 15:34 ?3025次閱讀

    AI芯片:加速人工智能計(jì)算的專用硬件引擎

    人工智能(AI)的快速發(fā)展離不開高性能計(jì)算硬件的支持,而傳統(tǒng)CPU由于架構(gòu)限制,難以高效處理AI任務(wù)中的大規(guī)模并行計(jì)算需求。因此,專為AI優(yōu)化的芯片應(yīng)運(yùn)而生,成為推動(dòng)深度學(xué)習(xí)、計(jì)算機(jī)視覺、自然語言
    的頭像 發(fā)表于 07-09 15:59 ?1854次閱讀

    大模型在半導(dǎo)體行業(yè)的應(yīng)用可行性分析

    的應(yīng)用,比如使用機(jī)器學(xué)習(xí)分析數(shù)據(jù),提升良率。 這一些大模型是否真的有幫助 能夠在解決工程師的知識(shí)斷層問題 本人純小白,不知道如何涉足這方面 應(yīng)該問什么大模型比較好,或者是看什么視頻能夠涉足這個(gè)行業(yè)
    發(fā)表于 06-24 15:10

    電子硬件工程師如何從零開始學(xué)習(xí)?(文末免費(fèi)分享從零開始學(xué)習(xí)資料)

    經(jīng)常有用戶咨詢,如何學(xué)習(xí)和提升電子硬件能力,有沒有適合小白學(xué)習(xí)的資料等等;電子硬件工程師是一個(gè)結(jié)合理論、實(shí)踐和創(chuàng)新能力的職業(yè),需要掌握電路設(shè)計(jì)、元器件選型、PCB設(shè)計(jì)、嵌入式系統(tǒng)、測(cè)試
    的頭像 發(fā)表于 06-04 07:36 ?2571次閱讀
    電子<b class='flag-5'>硬件</b>工程師如何從零開始<b class='flag-5'>學(xué)習(xí)</b>?(文末免費(fèi)分享從零開始<b class='flag-5'>學(xué)習(xí)</b>資料)

    使用MATLAB進(jìn)行無監(jiān)督學(xué)習(xí)

    無監(jiān)督學(xué)習(xí)是一種根據(jù)未標(biāo)注數(shù)據(jù)進(jìn)行推斷機(jī)器學(xué)習(xí)方法。無監(jiān)督學(xué)習(xí)旨在識(shí)別數(shù)據(jù)中隱藏的模式和關(guān)系,無需任何監(jiān)督或關(guān)于結(jié)果的先驗(yàn)知識(shí)。
    的頭像 發(fā)表于 05-16 14:48 ?1565次閱讀
    使用MATLAB進(jìn)行無監(jiān)督<b class='flag-5'>學(xué)習(xí)</b>

    硬件原理圖學(xué)習(xí)筆記

    這一個(gè)星期認(rèn)真學(xué)習(xí)硬件原理圖的知識(shí),做了一些筆記,方便以后查找。硬件原理圖分為三類1.管腳類(gpio)和門電路類輸入輸出引腳,上拉電阻,三極管與門,或門,非門上拉電阻:正向標(biāo)志作用,給懸空的引腳
    的頭像 發(fā)表于 04-30 18:40 ?1567次閱讀
    <b class='flag-5'>硬件</b>原理圖<b class='flag-5'>學(xué)習(xí)</b>筆記

    全志科技機(jī)器專用芯片MR527與MR813特性概述

    全志科技機(jī)器專用芯片MR527是八核高性能機(jī)器專用芯片; MR527系列芯片集成了8核Arm??Cortex?-A55 CPU、NPU、-GPU、MCU等多個(gè)高性能計(jì)算單元,具有強(qiáng)
    的頭像 發(fā)表于 04-24 14:58 ?4169次閱讀
    全志科技<b class='flag-5'>機(jī)器</b>人<b class='flag-5'>專用</b>芯片MR527與MR813特性概述

    硬件工程師學(xué)習(xí)路線,不吹牛規(guī)劃

    心理,才能觸發(fā)你的好奇心,去學(xué)下去,這也是成為工程師的首要條件,但這是遠(yuǎn)遠(yuǎn)不夠,還需要一條可供參考的學(xué)習(xí)路線,再加上99%的汗水和1%的靈感才可以。硬件設(shè)計(jì),可以
    的頭像 發(fā)表于 04-16 19:33 ?2085次閱讀
    <b class='flag-5'>硬件</b>工程師<b class='flag-5'>學(xué)習(xí)</b>路線,不吹牛規(guī)劃