91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

許多不同的硬件架構(gòu)在深度學(xué)習(xí)市場中共存

0BFC_eet_china ? 來源:未知 ? 作者:伍文輝 ? 2017-12-22 08:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在深度神經(jīng)網(wǎng)絡(luò)(DNN)發(fā)展的簡短歷史中,業(yè)界不斷嘗試各種可提升性能的硬件架構(gòu)。通用CPU最容易編程,但每瓦特性能的效率最低。GPU針對平行浮點(diǎn)運(yùn)算進(jìn)行了優(yōu)化,性能也比CPU更高幾倍。因此,當(dāng)GPU供貨商有了一大批新客戶,他們開始增強(qiáng)設(shè)計,以進(jìn)一步提高DNN效率。例如,Nvidia新的Volta架構(gòu)增加專用矩陣乘法單元,加速了常見的DNN運(yùn)算。

即使是增強(qiáng)型的GPU,仍然受其圖形專用邏輯的拖累。此外,盡管大多數(shù)的訓(xùn)練仍然使用浮點(diǎn)運(yùn)算,但近來的趨勢是使用整數(shù)運(yùn)算進(jìn)行DNN推論。例如Nvidia Volta的整數(shù)性能,但仍然建議使用浮點(diǎn)運(yùn)算進(jìn)行推論。芯片設(shè)計人員很清楚,整數(shù)單元比浮點(diǎn)單元更小且功效更高得多;當(dāng)使用8位(或更小)整數(shù)而非16位或32位浮點(diǎn)數(shù)時,其優(yōu)勢更加明顯。

相較于GPU,DSP則是針對整數(shù)數(shù)學(xué)而設(shè)計的,特別適用于卷積神經(jīng)網(wǎng)絡(luò)(CNN)中的卷積函數(shù)。向量DSP使用寬SIMD單元進(jìn)一步加速推論計算,例如,Cadence的C5 DSP核心包括四個2048位寬度的SIMD單元;因此,核心在每個周期內(nèi)可以完成1,024個8位整數(shù)乘法累加(MAC)作業(yè)。在16nm設(shè)計中,它能每秒處理超過1兆個MAC運(yùn)算。聯(lián)發(fā)科技(MediaTek)即取得了Cadence的DSP IP授權(quán),用于其最新智能手機(jī)處理器的DNN加速器。

新架構(gòu)的機(jī)會

最有效率的架構(gòu)是從頭開始設(shè)計DNN,消除其它應(yīng)用的特性,并針對DNN需要的特定計算進(jìn)行優(yōu)化。這些架構(gòu)能建置于專用ASIC或銷售至系統(tǒng)制造商的芯片(這些芯片稱為專用標(biāo)準(zhǔn)產(chǎn)品或ASSP)中。最顯著的DNN ASIC是Google的TPU,它為推論任務(wù)進(jìn)行了優(yōu)化,主要包括65,536個MAC單元的脈動數(shù)組和28MB內(nèi)存,以容納DNN權(quán)重和累加器。TPU使用一個簡單的四階流水線,而且只執(zhí)行少數(shù)指令。

多家新創(chuàng)公司也在為DNN開發(fā)客制架構(gòu)。英特爾(Intel)去年收購了其中的一家(Nervana),并計劃在今年年底前出樣其第一款A(yù)SSP;但該公司尚未透露該架構(gòu)的任何細(xì)節(jié)。Wave Computing為DNN開發(fā)了數(shù)據(jù)流處理器。其它為此獲得眾多資金的新創(chuàng)公司包括Cerebras、Graphcore和Groq。我們預(yù)計這些公司至少有幾家會在2018年投產(chǎn)組件。

另一種建置優(yōu)化架構(gòu)的方法是利用FPGA。微軟(Microsoft)廣泛采用FPGA作為其Catapult和Brainwave計劃的一部份;百度(Baidu)、Facebook以及其它云端服務(wù)器供貨商(CSP)也使用FPGA加速DNN。這種方法避免了數(shù)百萬美元的ASIC和ASSP投片費(fèi)用,并提供了更快的產(chǎn)品驗證時程;只要設(shè)計改動,F(xiàn)PGA就能在幾分鐘內(nèi)重新編程和設(shè)計。但它們作業(yè)于較低的時鐘速率,并且比ASIC所能容納的邏輯塊更少得多。圖1總結(jié)了我們對這些解決方案之間相對效率的看法。

許多不同的硬件架構(gòu)在深度學(xué)習(xí)市場中共存
圖1:根據(jù)不同的硬件設(shè)計,各種深度學(xué)習(xí)加速器之間的性能/功耗比至少存在兩個數(shù)量級的差異

有些公司藉由客制程度更高的加速器來強(qiáng)化現(xiàn)有設(shè)計,從而提供了一定的空間與彈性,例如,Nvidia專為自動駕駛車設(shè)計的Xavier芯片增加了一個整數(shù)數(shù)學(xué)模塊以加速DNN推論。Ceva和新思科技(Synopsys)設(shè)計了類似的單元,以便增強(qiáng)其SIMD DSP核心。這些模塊只包含大量的整數(shù)MAC單元,從而提高了數(shù)學(xué)運(yùn)算效率。然而,由于他們并未置換底層的GPU或DSP架構(gòu),所以也不像從頭設(shè)計那么有效率。

客制設(shè)計的挑戰(zhàn)之一在于深度學(xué)習(xí)算法持續(xù)迅速發(fā)展中。時下最流行的DNN開發(fā)工具TensorFlow兩年前才出現(xiàn),數(shù)據(jù)科學(xué)家們已經(jīng)在評估新的DNN結(jié)構(gòu)、卷積函數(shù)和數(shù)據(jù)格式了。對于兩年后的DNN來說,如今為現(xiàn)有工作負(fù)載客制的設(shè)計可能不再是理想的選擇,或甚至無法發(fā)揮作用。為了解決這個問題,大多數(shù)的ASIC和ASSP設(shè)計都是可編程且靈活的,但是FPGA提供了最大靈活度。例如,微軟已經(jīng)將專有的9位浮點(diǎn)格式定義為其Brainwave深度學(xué)習(xí)平臺的一部份。

融會貫通各種選擇

縱觀深度學(xué)習(xí)發(fā)展史,半導(dǎo)體產(chǎn)業(yè)通常首先在通用CPU中實現(xiàn)新應(yīng)用。如果應(yīng)用適用于現(xiàn)有的專用芯片,如GPU和DSP,那么接下來可能會轉(zhuǎn)移到這兩者。隨著時間的推移,如果新應(yīng)用發(fā)展成一個規(guī)模市場,業(yè)界公司就會開始開發(fā)ASIC和ASSP,雖然這些組件可能保留一定的可編程性。只有當(dāng)算法變得極其穩(wěn)定時(例如MPEG),才能真的看到以固定功能邏輯的應(yīng)用建置。

深度學(xué)習(xí)目前也正按這一發(fā)展路線展開。GPU和DSP顯然是適用的,而且因需求夠高,所以ASIC開始出現(xiàn)。幾家新創(chuàng)公司和其它公司正在開發(fā)即將在2018年及其后出貨的ASSP。至于少量或利基應(yīng)用,F(xiàn)PGA通常更受歡迎;深度學(xué)習(xí)已經(jīng)顯示出足以為ASIC投片帶來的前景了。

然而,哪一種DNN架構(gòu)將會勝出?如今看來還不夠明朗。盡管深度學(xué)習(xí)市場正迅速成長,但仍遠(yuǎn)低于PC、智能手機(jī)和汽車市場。因此,ASIC和ASSP的商業(yè)案例看起來還微不足道。相形之下,像英特爾和Nvidia這樣的公司可以采用來自其它市場的高性能處理器,并增強(qiáng)其深度學(xué)習(xí),透過大量的軟件支持和持續(xù)的更新以提供具競爭力的產(chǎn)品。未來幾年,我們將會看到許多不同的硬件架構(gòu)在深度學(xué)習(xí)市場中共存。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124439
  • 硬件架構(gòu)
    +關(guān)注

    關(guān)注

    0

    文章

    30

    瀏覽量

    9310
  • dnn
    dnn
    +關(guān)注

    關(guān)注

    0

    文章

    61

    瀏覽量

    9511

原文標(biāo)題:誰才是深度學(xué)習(xí)架構(gòu)之王?

文章出處:【微信號:eet-china,微信公眾號:電子工程專輯】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    nRF7002是如何實現(xiàn)PTA共存

    Packet Traffic Arbitration(分組流量仲裁)模塊 它是 nRF70 系列(包括 nRF7002)內(nèi)部的一個硬件模塊,用來 Wi?Fi 和 短距無線(Bluetooth LE
    發(fā)表于 02-12 10:08

    機(jī)器學(xué)習(xí)深度學(xué)習(xí)中需避免的 7 個常見錯誤與局限性

    無論你是剛?cè)腴T還是已經(jīng)從事人工智能模型相關(guān)工作一段時間,機(jī)器學(xué)習(xí)深度學(xué)習(xí)中都存在一些我們需要時刻關(guān)注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發(fā)諸多麻煩!只要我們密切關(guān)注數(shù)據(jù)、模型
    的頭像 發(fā)表于 01-07 15:37 ?223次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>和<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個常見錯誤與局限性

    【團(tuán)購】獨(dú)家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實戰(zhàn)課(11大系列課程,共5000+分鐘)

    行業(yè)市場具備深度學(xué)習(xí)能力的視覺系統(tǒng)占比已突破40%,催生大量復(fù)合型技術(shù)崗位需求: ? 崗位缺口:視覺算法工程師全國缺口15萬+,缺陷檢測專項人才招聘響應(yīng)率僅32% ? 薪資水平:掌握LabVIEW+
    發(fā)表于 12-04 09:28

    【團(tuán)購】獨(dú)家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實戰(zhàn)課程(11大系列課程,共5000+分鐘)

    行業(yè)市場具備深度學(xué)習(xí)能力的視覺系統(tǒng)占比已突破40%,催生大量復(fù)合型技術(shù)崗位需求: ? 崗位缺口:視覺算法工程師全國缺口15萬+,缺陷檢測專項人才招聘響應(yīng)率僅32% ? 薪資水平:掌握LabVIEW+
    發(fā)表于 12-03 13:50

    請問UART硬件FIFO深度是多少?如何避免數(shù)據(jù)溢出?

    UART 硬件 FIFO 深度是多少?如何避免數(shù)據(jù)溢出?
    發(fā)表于 11-21 06:59

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    、Transformer 模型的后繼者 二、用創(chuàng)新方法實現(xiàn)深度學(xué)習(xí)AI芯片 1、基于開源RISC-V的AI加速器 RISC-V是一種開源、模塊化的指令集架構(gòu)(ISA)。優(yōu)勢如下: ①模塊化特性②標(biāo)準(zhǔn)接口③開源
    發(fā)表于 09-12 17:30

    如何在機(jī)器視覺中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

    圖 1:基于深度學(xué)習(xí)的目標(biāo)檢測可定位已訓(xùn)練的目標(biāo)類別,并通過矩形框(邊界框)對其進(jìn)行標(biāo)識。 討論人工智能(AI)或深度學(xué)習(xí)時,經(jīng)常會出現(xiàn)“
    的頭像 發(fā)表于 09-10 17:38 ?923次閱讀
    如何在機(jī)器視覺中部署<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>神經(jīng)網(wǎng)絡(luò)

    自動駕駛中Transformer大模型會取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?4220次閱讀
    自動駕駛中Transformer大模型會取代<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>嗎?

    ARM入門學(xué)習(xí)方法分享

    的關(guān)鍵。一旦你掌握了ARM的基本概念和匯編語言,你可以開始進(jìn)行一些簡單的ARM項目。你可以嘗試編寫一些簡單的程序,如LED閃爍、按鍵輸入等,以加強(qiáng)你的實踐能力。 五、學(xué)習(xí)硬件知識:要深入理解ARM架構(gòu)
    發(fā)表于 07-23 10:21

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多
    的頭像 發(fā)表于 06-10 14:24 ?1310次閱讀
    Transformer<b class='flag-5'>架構(gòu)</b>概述

    GPU架構(gòu)深度解析

    GPU架構(gòu)深度解析從圖形處理到通用計算的進(jìn)化之路圖形處理單元(GPU),作為現(xiàn)代計算機(jī)中不可或缺的一部分,已經(jīng)從最初的圖形渲染專用處理器,發(fā)展成為強(qiáng)大的并行計算引擎,廣泛應(yīng)用于人工智能、科學(xué)計算
    的頭像 發(fā)表于 05-30 10:36 ?1891次閱讀
    GPU<b class='flag-5'>架構(gòu)</b><b class='flag-5'>深度</b>解析

    Arm 公司面向 PC 市場的 ?Arm Niva? 深度解讀

    子系統(tǒng)(CSS)? ? 的垂直領(lǐng)域延伸,Niva 旨在通過軟硬件深度整合,解決傳統(tǒng) x86 架構(gòu)能效比、AI 加速與生態(tài)兼容性上的痛點(diǎn)。以下結(jié)合技術(shù)
    的頭像 發(fā)表于 05-29 09:56 ?1668次閱讀

    Arm 公司面向移動端市場的 ?Arm Lumex? 深度解讀

    子系統(tǒng)(CSS)? ? 移動端的落地形態(tài),Lumex 旨在通過高度集成化的軟硬件方案,解決移動設(shè)備 AI 性能、能效比與開發(fā)效率上的挑戰(zhàn)。以下從技術(shù)架構(gòu)、性能突破、應(yīng)用場景、生態(tài)系
    的頭像 發(fā)表于 05-29 09:54 ?4402次閱讀

    EZ-USB SX3 CYUSB3017-BZXI 能否與PolarFire MicrochipFPGA 同一電氣設(shè)計中共存?

    雖然 SX3 配置實用程序不支持給定的 FPGA,但EZ-USB SX3 CYUSB3017-BZXI 能否與PolarFire MicrochipFPGA 同一電氣設(shè)計中共存?
    發(fā)表于 05-23 07:10

    解鎖未來汽車電子技術(shù):軟件定義車輛與區(qū)域架構(gòu)深度解析

    ?? 顛覆傳統(tǒng)架構(gòu),定義行業(yè)未來 深度解析軟件定義車輛(SDV)如何通過集中式軟件管理,實現(xiàn)硬件與軟件解耦,徹底解決傳統(tǒng)域架構(gòu)的碎片化難題。 揭秘區(qū)域控制
    的頭像 發(fā)表于 04-27 11:58 ?1446次閱讀