91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

寒武紀歷代深度學習處理器的各種參數(shù)信息

倩倩 ? 來源:我是天邊飄過一朵云 ? 2020-04-17 09:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

寒武紀神經(jīng)網(wǎng)絡(luò)處理器是中科院計算技術(shù)研究所發(fā)布的能運行深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)人工智能算法的處理器硬件架構(gòu),下面是小編整理的寒武紀歷代深度學習處理器的各種參數(shù)信息,大家不妨來看看。

1. 寒武紀1號:DianNao

陳天石等人提出的DianNao是寒武紀系列的第一個原型處理器結(jié)構(gòu),包含一個處理器核,主頻為0.98GHz,峰值性能達每秒4520億次神經(jīng)網(wǎng)絡(luò)基本運算(如加法、乘法等),65mm工藝下功耗為0.485W,面積3.02平方毫米。在若干代表性神經(jīng)網(wǎng)絡(luò)上的實驗結(jié)果表明,DianNao的平均性能超過主流CPU核的100倍,面積和功耗僅為CPU核的1/30~1/5,效能提升達三個數(shù)量級;DianNao的平均性能與主流通用圖形處理器(NVIDIA K20M)相當,但面積和功耗僅為后者的百分之一量級。

DianNao要解決的核心問題是如何使有限的內(nèi)存帶寬滿足運算功能部件的需求,使運算和訪存之間達到平衡,從而實現(xiàn)高效能比。其難點在于選取運算功能部件的數(shù)量、組織策略以及片上隨機存儲器(RAM)的結(jié)構(gòu)參數(shù)。由于整個結(jié)構(gòu)參數(shù)空間有上千萬種選擇,而模擬器運行速度不及真實芯片的十萬分之一,我們不可能蠻力嘗試各種可能的設(shè)計參數(shù)。為解決此問題,提出了一套基于機器學習的處理器性能建模方法,并基于該模型最終為DianNao選定了各項設(shè)計參數(shù),在運算和訪存間實現(xiàn)了平衡,顯著提升了執(zhí)行神經(jīng)網(wǎng)絡(luò)算法時的效能。

即使數(shù)據(jù)已經(jīng)從內(nèi)存移到了片上,搬運的能耗依然非常高。英偉達公司首席科學家史蒂夫·凱科勒(Steve Keckler)曾經(jīng)出,在40m工藝下,將64位數(shù)據(jù)搬運20毫米的能耗是做64位浮點乘法的數(shù)倍。因此,要降低處理器功耗,僅僅降低運算功耗是不夠的,必須對片上數(shù)據(jù)搬運進行優(yōu)化。我們提出了對神經(jīng)網(wǎng)絡(luò)進行分塊處理,將不同類型的數(shù)據(jù)塊存放在不同的片上隨機存儲器中,并建立理論模型來刻畫隨機存儲器與隨機存儲器、隨機存儲器與運算部件、隨機存儲器與內(nèi)存之間的搬運次數(shù),進而優(yōu)化神經(jīng)網(wǎng)絡(luò)運算所需的數(shù)據(jù)搬運次數(shù)。相對于CPU/GPU上基于緩存層次的數(shù)據(jù)搬運,DianNao可將數(shù)據(jù)搬運次數(shù)減少至前者的1/30~1/10。

2. 寒武紀2號:DaDianNao

近年來興起的深度神經(jīng)網(wǎng)絡(luò)在模式識別領(lǐng)域取得了很好的應(yīng)用效果,但這類神經(jīng)網(wǎng)絡(luò)的隱層數(shù)量和突觸數(shù)量遠多于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)。例如,著名的谷歌大腦包括了100多億個突觸。百度采用的大規(guī)模深度學習神經(jīng)網(wǎng)絡(luò)包含200多億個突觸。急劇增長的神經(jīng)網(wǎng)絡(luò)規(guī)模給神經(jīng)網(wǎng)絡(luò)處理器帶來了挑戰(zhàn)。單個核已經(jīng)難以滿足不斷增長的應(yīng)用需求。將神經(jīng)網(wǎng)絡(luò)處理器擴展至多核成為自然之選。DaDianNao在DianNao的基礎(chǔ)上進一步擴大了處理器的規(guī)模,包含16個處理器核和更大的片上存儲,并支持多處理器芯片間直接高速互連,避免了高昂的內(nèi)存訪問開銷。在28nm工藝下,DaDianNao的主頻為606MHz,面積67.7平方毫米,功耗約16W。單芯片性能超過了主流GPU的21倍,而能耗僅為主流GPU的1/330。64芯片組成的計算系統(tǒng)的性能較主流GPU提升450倍,但總能耗僅為后者的1/150。

3. 寒武紀3號:PuDianNao

神經(jīng)網(wǎng)絡(luò)已成為模式識別等領(lǐng)域的主流算法,但用戶很多時候可能更傾向于使用其他一些經(jīng)典的機器學習算法。例如程序化交易中經(jīng)常使用線性回歸這類可解釋性好、復(fù)雜度低的算法。在此背景下,我們研發(fā)了寒武紀3號多用途機器學習處理器---PuDianNao,可支持k-最近鄰、k-均值、樸素貝葉斯、線性回歸、支持向量機、決策樹、神經(jīng)網(wǎng)絡(luò)等近10種代表性機器學習算法。在65nm工藝下,PuDianNao的主頻為1GHz,峰值性能達每秒10560億次基本操作,面積3.51平方毫米,功耗為0.596W。PuDianNao運行上述機器學習算法吋的平均性能與主流通用圖形處理器相當,但面積和功耗僅為后者的百分之一量級。PuDianNao的結(jié)構(gòu)設(shè)計主要有兩個難點:運算單元設(shè)計和存儲層次設(shè)計,分別對應(yīng)于機器學習的運算特征和結(jié)構(gòu)特征。其中運算單元設(shè)計的出發(fā)點是高效實現(xiàn)機器學習最頻繁的運算操作,而存儲層次設(shè)計則主要根據(jù)訪存特征提高各機器學習算法中數(shù)據(jù)的片內(nèi)重用,降低片外訪存帶寬的需求,充分發(fā)揮運算單元的計算能力,避免片外訪存成為性能瓶頸。在運算單元設(shè)計方面,提出了一種機器學習運算單元(Machine Learning Unit, MLU)來支持各種機器學習方法中共有的核心運算,包括:點積(線性回歸、支持向量機、神經(jīng)網(wǎng)絡(luò))、距離計算(k-最近鄰、k-均值)計數(shù)(決策樹和樸素貝葉斯)、排序(k-最近鄰、k-均值)和非線性函數(shù)計算(支持向量機和神經(jīng)網(wǎng)絡(luò))等。機器學習運算單元被分成了計數(shù)器、加法器、乘法器、加法樹、Acc和Misc6個流水線階段。

在存儲層次設(shè)計方面,設(shè)計了HotBuf(HB)、ColdBuf(CB)和OutputBuf(OB)3個片上數(shù)據(jù)緩存HotBuf存儲輸入數(shù)據(jù),具有最短重用距離的數(shù)據(jù)。ColdBuf存放相對較長重用距離的輸入數(shù)據(jù)。OutputBuf存儲輸出數(shù)據(jù)或者臨時結(jié)果。這樣設(shè)計的原因有兩個:第一,在各種機器學習算法中,數(shù)據(jù)的重用距離通??梢苑譃閮深惢蛉悾虼嗽O(shè)計了3個片上數(shù)據(jù)緩存;第二,機器學習算法中不同類型的數(shù)據(jù)讀取寬度不同,因此設(shè)置了分開的緩存來降低不同的寬度帶來的開銷。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4839

    瀏覽量

    107965
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4786

    瀏覽量

    98244
  • 寒武紀
    +關(guān)注

    關(guān)注

    13

    文章

    217

    瀏覽量

    74981
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    寒武紀“炸裂”財報!一季度營收增長40倍,積極備貨應(yīng)對“爆單”?

    電子發(fā)燒友網(wǎng)報道(文/梁浩斌)寒武紀,交出一份炸裂財報!在4月18日,寒武紀公布了2024年年報和2025年一季度報告,其中2024年全年營收11.74億元,同比增長65.56%;虧損4.52億元
    的頭像 發(fā)表于 04-22 09:07 ?2926次閱讀
    <b class='flag-5'>寒武紀</b>“炸裂”財報!一季度營收增長40倍,積極備貨應(yīng)對“爆單”?

    寒武紀去年營收增長超400% 凈利潤20.59億同比扭虧 寒武紀首個盈利年度

    AI芯片廠商寒武紀傳來好消息,寒武紀去年營收增長超400% ;據(jù)寒武紀2025年年報顯示;25年營收達到64.97億元,同比增加453.21%,凈利潤20.59億元,同比扭虧。該公司迎來上市以來首個
    的頭像 發(fā)表于 03-13 11:49 ?551次閱讀

    寒武紀實現(xiàn)對GLM-5的Day 0適配

    2026年2月11日,寒武紀已基于 vLLM 推理框架同步實現(xiàn)對智譜最新開源旗艦?zāi)P??GLM-5 的適配。寒武紀一直高度重視大模型軟件生態(tài)建設(shè),借助于成熟的自研 Neuware 軟件生態(tài)和長期
    的頭像 發(fā)表于 02-12 15:07 ?749次閱讀

    寒武紀引領(lǐng)AI芯片軟件新生態(tài)

    寒武紀成立的初衷是為“人工智能的大爆發(fā)”提供底層算力支持,不僅要硬件算力強大,更要軟件通用、易用。多年來,寒武紀堅持訓練推理融合、統(tǒng)一的基礎(chǔ)軟件平臺研發(fā)策略,構(gòu)建從自研芯片架構(gòu)到高性能軟件平臺的完整
    的頭像 發(fā)表于 11-06 11:23 ?1451次閱讀
    <b class='flag-5'>寒武紀</b>引領(lǐng)AI芯片軟件新生態(tài)

    商湯科技與寒武紀達成戰(zhàn)略合作

    近日,商湯科技與中科寒武紀科技股份有限公司(以下簡稱“寒武紀”)簽署面向新發(fā)展階段的戰(zhàn)略合作協(xié)議,重點推進軟硬件的聯(lián)合優(yōu)化,并共同構(gòu)建開放共贏的產(chǎn)業(yè)生態(tài)。
    的頭像 發(fā)表于 10-15 17:54 ?824次閱讀

    寒武紀成功適配DeepSeek-V3.2-Exp模型

    2025年9月29日,寒武紀已同步實現(xiàn)對深度求索公司最新模型DeepSeek-V3.2-Exp的適配,并開源大模型推理引擎vLLM-MLU源代碼。代碼地址和測試步驟見文末,開發(fā)者可以在寒武紀軟硬件平臺上第一時間體驗DeepSee
    的頭像 發(fā)表于 10-11 17:14 ?1738次閱讀
    <b class='flag-5'>寒武紀</b>成功適配DeepSeek-V3.2-Exp模型

    寒武紀股價破1200大關(guān)創(chuàng)歷史新高 DeepSeek適配國產(chǎn)芯片成直接原因

    算力市占率均居第一,這家公司自研的MLU架構(gòu)與軟件棧深度耦合,奠定了國產(chǎn)替代核心底座,被視作挑戰(zhàn)英偉達的唯一本土力量。 除了寒武紀之外,海光信息、中芯國際、盛美上海這些半導(dǎo)體個股今天也出現(xiàn)了不同程度的大幅度上漲。以最終收盤的股價
    的頭像 發(fā)表于 08-26 13:54 ?1080次閱讀
    <b class='flag-5'>寒武紀</b>股價破1200大關(guān)創(chuàng)歷史新高 DeepSeek適配國產(chǎn)芯片成直接原因

    寒武紀85后創(chuàng)始人陳天石身價超1500億

    在3月份胡潤研究院發(fā)布的《2025胡潤全球富豪榜》上,寒武紀創(chuàng)始人陳天石以870億元人民幣身家位列第195位。現(xiàn)在在資本的追逐下,寒武紀85后創(chuàng)始人陳天石身價超1500億。 近日,在英偉達暫停H20
    的頭像 發(fā)表于 08-26 10:37 ?6895次閱讀

    德州儀器AM62Ax Sitara?處理器技術(shù)解析

    Texas Instruments AM62A/AM62A-Q1基于ARM ^?^ 的處理器是車規(guī)級異構(gòu)ARM處理器系列的一部分。這些處理器包括嵌入式深度
    的頭像 發(fā)表于 08-13 10:25 ?1713次閱讀
    德州儀器AM62Ax Sitara?<b class='flag-5'>處理器</b>技術(shù)解析

    寒武紀聯(lián)手階躍星辰成立模芯生態(tài)創(chuàng)新聯(lián)盟

    近日,階躍星辰發(fā)布了新一代基礎(chǔ)大模型Step 3。Step 3兼顧智能與效率,通過模型和系統(tǒng)聯(lián)合創(chuàng)新,實現(xiàn)了行業(yè)前列的推理解碼效率,將于7月31日面向全球企業(yè)和開發(fā)者開源。目前,寒武紀已初步實現(xiàn)對Step 3的支持。
    的頭像 發(fā)表于 07-31 11:26 ?1212次閱讀

    寒武紀基于思元370芯片的MLU370-X8 智能加速卡產(chǎn)品手冊詳解

    MLU370-X8智能加速卡是全面升級的數(shù)據(jù)中心訓推一體AI加速卡,基于寒武紀全新一代思元370芯片,接口為PCIe 4.0 X16,是全高全長雙寬(FHFL-Dual-Slot)的標準PCIe加速卡,適用于業(yè)內(nèi)最新的CPU平臺,可輕松搭載于最先進的人工智能服務(wù),快速實
    的頭像 發(fā)表于 04-24 17:57 ?5659次閱讀
    <b class='flag-5'>寒武紀</b>基于思元370芯片的MLU370-X8 智能加速卡產(chǎn)品手冊詳解

    寒武紀思元370芯片參數(shù)特性詳解

    寒武紀首次采用chiplet技術(shù)將2顆AI計算芯粒封裝為一顆AI芯片,通過不同芯粒組合規(guī)格多樣化的產(chǎn)品,為用戶提供適用不同場景的高性價比AI芯片。
    的頭像 發(fā)表于 04-24 17:49 ?5618次閱讀
    <b class='flag-5'>寒武紀</b>思元370芯片<b class='flag-5'>參數(shù)</b>特性詳解

    TPU處理器的特性和工作原理

    張量處理單元(TPU,Tensor Processing Unit)是一種專門為深度學習應(yīng)用設(shè)計的硬件加速。它的開發(fā)源于對人工智能(AI)和機器
    的頭像 發(fā)表于 04-22 09:41 ?4585次閱讀
    TPU<b class='flag-5'>處理器</b>的特性和工作原理

    寒武紀一季度營收大漲4230% 凈利潤3.55億 扭虧為盈

    4月18日晚間,國產(chǎn)AI芯片龍頭寒武紀發(fā)布了財務(wù)報告,包括有2025年第一季度財務(wù)報告和2024年年度財務(wù)報告。 在2025年第一季度,寒武紀營收達到11.11億,同比增長高達4230.22
    的頭像 發(fā)表于 04-19 14:15 ?1868次閱讀

    美國業(yè)務(wù)收入占比低,寒武紀等回應(yīng)加征關(guān)稅

    相關(guān)產(chǎn)品和技進行了限制。本次加征關(guān)稅,對公司的經(jīng)營管理不會造成實質(zhì)性影響。 ? 公司自成立以來一直專注于人工智能芯片產(chǎn)品的研發(fā)與技術(shù)創(chuàng)新,致力于打造人工智能領(lǐng)域的核心處理器芯片,公司的主營業(yè)務(wù)是應(yīng)用于各類云服務(wù)、邊緣計算設(shè)備、終端設(shè)
    發(fā)表于 04-12 00:59 ?1073次閱讀
    美國業(yè)務(wù)收入占比低,<b class='flag-5'>寒武紀</b>等回應(yīng)加征關(guān)稅