91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ARM發(fā)布第一代面向AI和機(jī)器學(xué)習(xí)的處理器,架構(gòu)名為“Trillium”

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-08-27 08:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

ARM發(fā)布第一代面向AI機(jī)器學(xué)習(xí)處理器,架構(gòu)名為“Trillium”,吸收了從硬件、數(shù)據(jù)壓縮和編譯器方面最成功的創(chuàng)新中的優(yōu)點(diǎn),其實(shí)是一款兼采眾家之長的“聚合體”。ARM表示,該處理器舍棄了高速緩存,兼具英偉達(dá)TensorCore的功能、FPGA的可編程性,以及DSP的低功耗處理能力。

在過去的幾年中,有幾家芯片創(chuàng)業(yè)公司一直致力于尋找新的方法來有效地訓(xùn)練和執(zhí)行神經(jīng)網(wǎng)絡(luò),但在現(xiàn)有技術(shù)和理念的基礎(chǔ)上,其實(shí)真的必要從頭做起嗎?

本周,在一年一度的Hot Chips會(huì)議上,ARM展示了其第一代機(jī)器學(xué)習(xí)處理器,預(yù)計(jì)今年晚些時(shí)候,ARM的合作伙伴就可以使用其IP。

兼采眾長,ARM“拼”出世界最好的AI處理器

該處理器架構(gòu)名為“Trillium”,是由一些我們并不陌生的元素與ARM的邏輯核心捆綁而來的,對(duì)于那些需要Nvidia Volta GPU的TensorCore功能的人來說,ARM這款處理器可能意義重大,比如DeePhi神經(jīng)網(wǎng)絡(luò)壓縮技術(shù)(現(xiàn)在是Xilinx的一部分)、FPGA的可編程性,以及DSP的低功耗處理能力。

換句話說,ARM可能剛剛“拼湊”出了世界上最好的AI處理器,這對(duì)于那些在大型通用設(shè)備上放置大量額外空間的芯片制造商來說,可能會(huì)帶來很大的麻煩。

ARM的技術(shù)總監(jiān)Ian Bratt本周在Hot Chips上表示,ARM首次涉足AI處理器的設(shè)計(jì)目標(biāo)是盡可能的推廣,以便能夠滿足服務(wù)器端AI的市場(chǎng)需求,并將自家AI處理器更多用于汽車和具有物聯(lián)網(wǎng)需求的小型設(shè)備上。

Bratt表示:

“在研發(fā)第一代機(jī)器學(xué)習(xí)處理器的過程中,我們初期出現(xiàn)了一些失誤,將舊框架套用在新問題上。我們知道GPU、CPU和DSP是如何用于機(jī)器學(xué)習(xí)上的,但我們開始研究如何能夠清晰地利用每一項(xiàng)技術(shù)。我們可以利用CPU的技術(shù)處理控制和可編程性問題,用GPU的技術(shù)解決數(shù)據(jù)壓縮、數(shù)據(jù)移動(dòng)和計(jì)算密度等問題,這些都可以提高DSP的效率和開源軟件的開發(fā)?!?/p>

如下圖所示,ARM的機(jī)器學(xué)習(xí)架構(gòu)并沒有什么特別之處,但值得注意的是,該架構(gòu)吸收了從硬件、壓縮和編譯器方面最成功的創(chuàng)新中的優(yōu)點(diǎn)。

搭建架構(gòu)的模塊是計(jì)算引擎,每塊為64 KB的SRAM片,共16塊。 MAC引擎(與英偉達(dá)的TensorCore不同)是執(zhí)行卷積化的地方,可編程層引擎負(fù)責(zé)處理網(wǎng)絡(luò)各層之間的大部分必要的shuffling。該架構(gòu)具有DMA引擎,用于與外部存儲(chǔ)器接口進(jìn)行通信。 ARM自己的Cortex技術(shù)負(fù)責(zé)的引擎控制。

不再需要緩存,控制流程大大簡(jiǎn)化

對(duì)于一家以創(chuàng)新為基礎(chǔ)公司而言,ARM正在走一條自己的獨(dú)特道路。公司首次涉足人工智能芯片,芯片的組件都是大家并不陌生的,ARM在用于神經(jīng)網(wǎng)絡(luò)的點(diǎn)積(dot product)引擎上做出了一些關(guān)鍵性創(chuàng)新,提升了執(zhí)行效率、降低了網(wǎng)絡(luò)噪音。

我們很可能忽略的一個(gè)要素是,靜態(tài)調(diào)度(static scheduling)的價(jià)值,這是影響芯片整體性能和效率的關(guān)鍵部分。

存儲(chǔ)器的訪問模式完全是可靜態(tài)分析的,并且很容易理解和映射,但是許多設(shè)備沒有利用這一點(diǎn)。 CPU具有復(fù)雜的高速緩存層次結(jié)構(gòu),可以用于非確定性存儲(chǔ)器訪問進(jìn)行優(yōu)化,但對(duì)于確定性的神經(jīng)網(wǎng)絡(luò),可以提前將所有內(nèi)容放在內(nèi)存中。然后,編譯器為不同的組件生成命令流(由ARM控制處理器進(jìn)行編配),到達(dá)寄存器以控制這些組件。

簡(jiǎn)而言之就是:不需要緩存。此外還有一個(gè)好處是流量控制流程被大大簡(jiǎn)化,可以進(jìn)一步降低能耗,提升處理器性能的可預(yù)測(cè)性。

處理卷積化的方式可以進(jìn)一步提高效率。下圖中的SRAM突出了編譯器是如何為輸入特征映射和壓縮模型分配部分資源的。每個(gè)計(jì)算引擎都將使用跨越不同計(jì)算引擎的不同特征映射。

ARM的MAC引擎可以做8個(gè)16×16點(diǎn)積。我們已經(jīng)討論了這一點(diǎn)的重要性,但是在這些操作中有很多零,可以在MAC引擎中進(jìn)行檢測(cè)和調(diào)整,以避免浪費(fèi)更多的能量。

ARM芯片還具備可編程層引擎,旨在通過可編程性“預(yù)見”處理器的。它使用Cortex CPU技術(shù)來支持非卷積運(yùn)算符,以及向量和神經(jīng)網(wǎng)絡(luò)擴(kuò)展。

使用機(jī)器學(xué)習(xí)處理器特征映射壓縮技術(shù)可以獲得更高的效率,這些技術(shù)聽起來和DeePhi在CNN壓縮上的作用類似。

打造通用平臺(tái),實(shí)現(xiàn)機(jī)器學(xué)習(xí)與現(xiàn)有流程的整合

Bratt表示,目前ARM的機(jī)器學(xué)習(xí)業(yè)務(wù)部門擁有150名員工,隨著對(duì)機(jī)器學(xué)習(xí)需求的不斷增長,這一數(shù)字也會(huì)不斷增加,并將機(jī)器學(xué)習(xí)整合到新的和現(xiàn)有的工作流程和配置中。他表示,我們的目標(biāo)是讓這項(xiàng)工作橫跨一系列細(xì)分市場(chǎng),但是要為一類用戶提供一個(gè)具備其所需全部功能的通用平臺(tái)并不簡(jiǎn)單。

不用高速緩存、精簡(jiǎn)壓縮流程、使用混合精度算法,并與精簡(jiǎn)化的SRAM片上計(jì)算相結(jié)合,將其移植到密集的點(diǎn)積引擎上,這些都使得ARM的芯片IP成為市場(chǎng)上的一個(gè)引人注目的焦點(diǎn),而且可以針對(duì)關(guān)鍵的工作負(fù)載做進(jìn)一步的細(xì)化。

與某些AI專用處理器相比,ARM處理器增加了高帶寬內(nèi)存(HMC)可能使其更容易識(shí)別,但是需要授權(quán)用戶了解這些組件系統(tǒng)中協(xié)同工作的方式。 ARM工程師真正從生態(tài)系統(tǒng)中汲取了最佳的AI處理器技術(shù),并使用開源軟件掛鉤,可能大幅擴(kuò)大授權(quán)許可范圍。

上圖所示為Inception V3上的8X8塊,突出表示了通過零/非零濾波方法實(shí)施的無損壓縮結(jié)果,顯著降低了神經(jīng)網(wǎng)絡(luò)的規(guī)模。壓縮結(jié)果保留在內(nèi)部SRAM中,并且在SRAM中保留了網(wǎng)絡(luò)修剪技術(shù),以便在需要時(shí)使用。

對(duì)這類技術(shù)進(jìn)行授權(quán)時(shí)的選擇并不多,同時(shí)ARM也要確定,在現(xiàn)有的神經(jīng)網(wǎng)絡(luò)處理器中有哪些最成功的、值得汲取的技術(shù)和組件。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    135

    文章

    9564

    瀏覽量

    392577
  • 編譯器
    +關(guān)注

    關(guān)注

    1

    文章

    1672

    瀏覽量

    51756
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8558

    瀏覽量

    137069

原文標(biāo)題:Arm首代AI架構(gòu)如此彪悍!集英偉達(dá)、英特爾、賽靈思三位優(yōu)勢(shì)于一體

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Banana Pi BPI-CM6 計(jì)算模塊將 8 核 RISC-V 處理器帶入 CM4 外形尺寸

    RISC-V 處理器設(shè)計(jì),而非封閉的 ARM 架構(gòu),是邁向開放式架構(gòu)計(jì)算的真正步。這為開發(fā)者提供了更大的自由度、靈活性和長期發(fā)展空間,并
    發(fā)表于 12-20 09:01

    瑞芯微SOC智能視覺AI處理器

    RK3568B2: 款性能均衡、接口豐富的中高端AIoT應(yīng)用處理器,是RK3568的優(yōu)化版本,主打穩(wěn)定與可靠性。CPU/GPU: 延續(xù)RK3568的4核A55 + G52 GPU架構(gòu),性能可靠
    發(fā)表于 12-19 13:44

    探索RISC-V在機(jī)器人領(lǐng)域的潛力

    的硬件配置給人留下了深刻的第一印象: ? 核心處理器: 搭載了進(jìn)迭時(shí)空的K1系列高性能RISC-V處理器,具備強(qiáng)大的通用計(jì)算能力和AI加速特性。 ? 內(nèi)存與存儲(chǔ): 板載LPDDR4
    發(fā)表于 12-03 14:40

    TDA4VL-Q1處理器技術(shù)文檔總結(jié)

    算法加速、用于通用計(jì)算的最新 Arm 和 GPU 處理器、集成的下一代成像子系統(tǒng) (ISP)、視頻編解碼和隔離的 MCU 島。所有這些都
    的頭像 發(fā)表于 10-10 09:47 ?2083次閱讀
    TDA4VL-Q1<b class='flag-5'>處理器</b>技術(shù)文檔總結(jié)

    安謀科技發(fā)布“星辰”STAR-MC3,提升MCU AI處理能力

    Helium?技術(shù),顯著提升CPU在AI計(jì)算方面的性能,同時(shí)兼具優(yōu)異的面效比與能效比,實(shí)現(xiàn)高性能與低功耗設(shè)計(jì),面向AIoT智能物聯(lián)網(wǎng)領(lǐng)域,為主控芯片及協(xié)處理器提供核芯架構(gòu),助力客戶高
    的頭像 發(fā)表于 09-29 08:53 ?1.1w次閱讀
    安謀科技<b class='flag-5'>發(fā)布</b>“星辰”STAR-MC3,提升MCU <b class='flag-5'>AI</b><b class='flag-5'>處理</b>能力

    什么是ARM架構(gòu)?你需要知道的

    從智能手機(jī)到工業(yè)邊緣計(jì)算機(jī),ARM?架構(gòu)為全球數(shù)十億臺(tái)設(shè)備提供動(dòng)力。ARM?以其效率優(yōu)先的設(shè)計(jì)和靈活的許可模式而聞名,已迅速從移動(dòng)處理器擴(kuò)展到人工智能邊緣計(jì)算、工業(yè)控制
    的頭像 發(fā)表于 09-11 14:48 ?1418次閱讀
    什么是<b class='flag-5'>ARM</b><b class='flag-5'>架構(gòu)</b>?你需要知道的<b class='flag-5'>一</b>切

    ARM入門學(xué)習(xí)方法分享

    集)處理器。 1985年第一個(gè)ARM原型在英國劍橋誕生。 公司的特點(diǎn)是只設(shè)計(jì)芯片,而不生產(chǎn)。它提供ARM技術(shù)知識(shí)產(chǎn)權(quán)(IP)核,將技術(shù)授權(quán)給世界上許多著名的半導(dǎo)體、軟件和OEM廠商,
    發(fā)表于 07-23 10:21

    龍芯發(fā)布一代處理器,進(jìn)軍服務(wù)AI處理器市場(chǎng)

    6月26日,作為海淀區(qū)“科技會(huì)客廳”首場(chǎng)活動(dòng),2025龍芯產(chǎn)品發(fā)布暨用戶大會(huì)在中關(guān)村國際創(chuàng)新中心舉行,重磅發(fā)布基于國產(chǎn)自主指令集龍架構(gòu)(LoongArchTM)研發(fā)的服務(wù)
    發(fā)表于 06-26 15:18 ?2224次閱讀
    龍芯<b class='flag-5'>發(fā)布</b>新<b class='flag-5'>一代</b><b class='flag-5'>處理器</b>,進(jìn)軍服務(wù)<b class='flag-5'>器</b>和<b class='flag-5'>AI</b><b class='flag-5'>處理器</b>市場(chǎng)

    Arm 公司面向移動(dòng)端市場(chǎng)的 ?Arm Lumex? 深度解讀

    面向移動(dòng)端市場(chǎng)的 ? Arm Lumex ? 深度解讀 ? Arm Lumex ? 是 Arm 公司面向移動(dòng)設(shè)備市場(chǎng)推出的新
    的頭像 發(fā)表于 05-29 09:54 ?4427次閱讀

    第一代半導(dǎo)體被淘汰了嗎

    在半導(dǎo)體產(chǎn)業(yè)的百年發(fā)展歷程中,“第一代半導(dǎo)體是否被淘汰”的爭(zhēng)議從未停歇。從早期的鍺晶體管到如今的硅基芯片,以硅為代表的第一代半導(dǎo)體材料,始終以不可替代的產(chǎn)業(yè)基石角色,支撐著全球95%以上的電子設(shè)備
    的頭像 發(fā)表于 05-14 17:38 ?1153次閱讀
    <b class='flag-5'>第一代</b>半導(dǎo)體被淘汰了嗎

    芯馳科技重磅發(fā)布最新一代AI座艙芯片X10

    近日,上海國際車展期間,芯馳科技重磅發(fā)布最新一代AI座艙芯片X10。在X9系列智能座艙產(chǎn)品數(shù)百萬片量產(chǎn)交付的基礎(chǔ)上,芯馳以X10卓越的性能、創(chuàng)新的架構(gòu)以及豐富的
    的頭像 發(fā)表于 04-27 15:56 ?1401次閱讀

    大象機(jī)器人攜手進(jìn)迭時(shí)空推出 RISC-V 全棧開源六軸機(jī)械臂產(chǎn)品

    識(shí)別聯(lián)調(diào)。 進(jìn)迭時(shí)空致力于為智能機(jī)器人提供完整全棧優(yōu)化的RISC-V AI軟硬件解決方案,第一代RISC-V AI CPU芯片K1已完成AI
    發(fā)表于 04-25 17:59

    全新STM32MP257開發(fā)板震撼發(fā)布!異核架構(gòu)x接口豐富x邊緣AI,助力ARM嵌入式工業(yè)4.0應(yīng)用!

    全新STM32MP257開發(fā)板震撼發(fā)布!異核架構(gòu)x接口豐富x邊緣AI,助力ARM嵌入式工業(yè)4.0應(yīng)用! ATK-DLMP257B開發(fā)板是正點(diǎn)原子基于STM32MP257DAK3
    發(fā)表于 04-12 12:04

    面向AI機(jī)器學(xué)習(xí)應(yīng)用的開發(fā)平臺(tái) AMD/Xilinx Versal? AI Edge VEK280

    AMD/Xilinx Versal? AI Edge VEK280評(píng)估套件是面向AI機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 04-11 18:33 ?2582次閱讀
    <b class='flag-5'>面向</b><b class='flag-5'>AI</b>與<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>應(yīng)用的開發(fā)平臺(tái) AMD/Xilinx Versal? <b class='flag-5'>AI</b> Edge VEK280

    芯原推出新一代集成AI的ISP9000圖像信號(hào)處理器,賦能智能視覺應(yīng)用

    芯原股份今日發(fā)布其ISP9000系列圖像信號(hào)處理器(ISP)IP——面向日益增長的智能視覺應(yīng)用需求而打造的新一代AI ISP解決方案。ISP
    的頭像 發(fā)表于 04-02 10:43 ?963次閱讀