亚州黄色电影久久久久久性,一级A性爱全过程视频,亚洲自排导航最黄色无码电影

寒武紀神經(jīng)網(wǎng)絡(luò)處理器是中科院計算技術(shù)研究所發(fā)布的能運行深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)人工智能算法的處理器硬件架構(gòu)，下面是小編整理的寒武紀歷代深度學習處理器的各種參數(shù)信息，大家不妨來看看。

1. 寒武紀1號：DianNao

陳天石等人提出的DianNao是寒武紀系列的第一個原型處理器結(jié)構(gòu)，包含一個處理器核，主頻為0.98GHz，峰值性能達每秒4520億次神經(jīng)網(wǎng)絡(luò)基本運算（如加法、乘法等），65mm工藝下功耗為0.485W，面積3.02平方毫米。在若干代表性神經(jīng)網(wǎng)絡(luò)上的實驗結(jié)果表明，DianNao的平均性能超過主流CPU核的100倍，面積和功耗僅為CPU核的1/30~1/5，效能提升達三個數(shù)量級；DianNao的平均性能與主流通用圖形處理器（NVIDIA K20M）相當，但面積和功耗僅為后者的百分之一量級。

DianNao要解決的核心問題是如何使有限的內(nèi)存帶寬滿足運算功能部件的需求，使運算和訪存之間達到平衡，從而實現(xiàn)高效能比。其難點在于選取運算功能部件的數(shù)量、組織策略以及片上隨機存儲器（RAM）的結(jié)構(gòu)參數(shù)。由于整個結(jié)構(gòu)參數(shù)空間有上千萬種選擇，而模擬器運行速度不及真實芯片的十萬分之一，我們不可能蠻力嘗試各種可能的設(shè)計參數(shù)。為解決此問題，提出了一套基于機器學習的處理器性能建模方法，并基于該模型最終為DianNao選定了各項設(shè)計參數(shù)，在運算和訪存間實現(xiàn)了平衡，顯著提升了執(zhí)行神經(jīng)網(wǎng)絡(luò)算法時的效能。

即使數(shù)據(jù)已經(jīng)從內(nèi)存移到了片上，搬運的能耗依然非常高。英偉達公司首席科學家史蒂夫·凱科勒（Steve Keckler）曾經(jīng)出，在40m工藝下，將64位數(shù)據(jù)搬運20毫米的能耗是做64位浮點乘法的數(shù)倍。因此，要降低處理器功耗，僅僅降低運算功耗是不夠的，必須對片上數(shù)據(jù)搬運進行優(yōu)化。我們提出了對神經(jīng)網(wǎng)絡(luò)進行分塊處理，將不同類型的數(shù)據(jù)塊存放在不同的片上隨機存儲器中，并建立理論模型來刻畫隨機存儲器與隨機存儲器、隨機存儲器與運算部件、隨機存儲器與內(nèi)存之間的搬運次數(shù)，進而優(yōu)化神經(jīng)網(wǎng)絡(luò)運算所需的數(shù)據(jù)搬運次數(shù)。相對于CPU/GPU上基于緩存層次的數(shù)據(jù)搬運，DianNao可將數(shù)據(jù)搬運次數(shù)減少至前者的1/30~1/10。

2. 寒武紀2號：DaDianNao

近年來興起的深度神經(jīng)網(wǎng)絡(luò)在模式識別領(lǐng)域取得了很好的應(yīng)用效果，但這類神經(jīng)網(wǎng)絡(luò)的隱層數(shù)量和突觸數(shù)量遠多于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)。例如，著名的谷歌大腦包括了100多億個突觸。百度采用的大規(guī)模深度學習神經(jīng)網(wǎng)絡(luò)包含200多億個突觸。急劇增長的神經(jīng)網(wǎng)絡(luò)規(guī)模給神經(jīng)網(wǎng)絡(luò)處理器帶來了挑戰(zhàn)。單個核已經(jīng)難以滿足不斷增長的應(yīng)用需求。將神經(jīng)網(wǎng)絡(luò)處理器擴展至多核成為自然之選。DaDianNao在DianNao的基礎(chǔ)上進一步擴大了處理器的規(guī)模，包含16個處理器核和更大的片上存儲，并支持多處理器芯片間直接高速互連，避免了高昂的內(nèi)存訪問開銷。在28nm工藝下，DaDianNao的主頻為606MHz，面積67.7平方毫米，功耗約16W。單芯片性能超過了主流GPU的21倍，而能耗僅為主流GPU的1/330。64芯片組成的計算系統(tǒng)的性能較主流GPU提升450倍，但總能耗僅為后者的1/150。

3. 寒武紀3號：PuDianNao

神經(jīng)網(wǎng)絡(luò)已成為模式識別等領(lǐng)域的主流算法，但用戶很多時候可能更傾向于使用其他一些經(jīng)典的機器學習算法。例如程序化交易中經(jīng)常使用線性回歸這類可解釋性好、復(fù)雜度低的算法。在此背景下，我們研發(fā)了寒武紀3號多用途機器學習處理器---PuDianNao，可支持k-最近鄰、k-均值、樸素貝葉斯、線性回歸、支持向量機、決策樹、神經(jīng)網(wǎng)絡(luò)等近10種代表性機器學習算法。在65nm工藝下，PuDianNao的主頻為1GHz，峰值性能達每秒10560億次基本操作，面積3.51平方毫米，功耗為0.596W。PuDianNao運行上述機器學習算法吋的平均性能與主流通用圖形處理器相當，但面積和功耗僅為后者的百分之一量級。PuDianNao的結(jié)構(gòu)設(shè)計主要有兩個難點：運算單元設(shè)計和存儲層次設(shè)計，分別對應(yīng)于機器學習的運算特征和結(jié)構(gòu)特征。其中運算單元設(shè)計的出發(fā)點是高效實現(xiàn)機器學習最頻繁的運算操作，而存儲層次設(shè)計則主要根據(jù)訪存特征提高各機器學習算法中數(shù)據(jù)的片內(nèi)重用，降低片外訪存帶寬的需求，充分發(fā)揮運算單元的計算能力，避免片外訪存成為性能瓶頸。在運算單元設(shè)計方面，提出了一種機器學習運算單元（Machine Learning Unit， MLU）來支持各種機器學習方法中共有的核心運算，包括：點積（線性回歸、支持向量機、神經(jīng)網(wǎng)絡(luò)）、距離計算（k-最近鄰、k-均值）計數(shù)（決策樹和樸素貝葉斯）、排序（k-最近鄰、k-均值）和非線性函數(shù)計算（支持向量機和神經(jīng)網(wǎng)絡(luò)）等。機器學習運算單元被分成了計數(shù)器、加法器、乘法器、加法樹、Acc和Misc6個流水線階段。

在存儲層次設(shè)計方面，設(shè)計了HotBuf（HB）、ColdBuf（CB）和OutputBuf（OB）3個片上數(shù)據(jù)緩存HotBuf存儲輸入數(shù)據(jù)，具有最短重用距離的數(shù)據(jù)。ColdBuf存放相對較長重用距離的輸入數(shù)據(jù)。OutputBuf存儲輸出數(shù)據(jù)或者臨時結(jié)果。這樣設(shè)計的原因有兩個：第一，在各種機器學習算法中，數(shù)據(jù)的重用距離通?？梢苑譃閮深惢蛉悾虼嗽O(shè)計了3個片上數(shù)據(jù)緩存；第二，機器學習算法中不同類型的數(shù)據(jù)讀取寬度不同，因此設(shè)置了分開的緩存來降低不同的寬度帶來的開銷。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4839

瀏覽量
107965
算法

算法

+關(guān)注

關(guān)注
23

文章
4786

瀏覽量
98244
寒武紀

寒武紀

+關(guān)注

關(guān)注
13

文章
217

瀏覽量
74981

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

寒武紀歷代深度學習處理器的各種參數(shù)信息

評論