国产aaaaa级操逼电影二区,成人在线免费岛国

專用處理器（或?qū)Ｓ眉铀倨鳎?顧名思義，就是用于處理 “特定應用” 的處理器，相對于通用處理器而言，這類處理器性能更高、功耗更低、通常價格也更便宜，但是使用范圍也相對有限。計算芯片產(chǎn)業(yè)在過去 50 年的發(fā)展歷程中，比較成功的專用處理器門類只有數(shù)字信號處理器（DSP）、圖形處理器（GPU）和網(wǎng)絡處理器（NPU），這是 20 世紀 90 年代就已經(jīng)基本定型的格局。

AI芯片專利技術(shù)研發(fā)態(tài)勢

在過去 5 年中，用于處理深度學習的神經(jīng)網(wǎng)絡處理器（AI 芯片）也開始快速發(fā)展，比較成功的案例包括 Google 公司的張量處理器 TPU、寒武紀公司的 DianNao 系列深度學習處理器［5］等。專用處理器的最終目標不是替代通用 CPU，而是與現(xiàn)有的通用 CPU 技術(shù)協(xié)作，即將部分 CPU 運行效率低下的應用卸載（offloading）到用加速器上運行，通過構(gòu)建異構(gòu)計算平臺來高效地處理計算任務。從產(chǎn)業(yè)生態(tài)的視角來看，相比于通用處理器的硬件與軟件分離的 “水平” 模式，專用加速器更注重軟硬協(xié)同的 “垂直” 發(fā)展模式。

從芯片的效能和適應性兩個維度來刻畫芯片的特征。這里效能指的是單位功耗下提供的計算能力，適應性就是通常意義下的通用性。業(yè)界通常將數(shù)據(jù)處理芯片大體分為三大類：處理器芯片、ASIC（application specifific integrated circuit）芯片和 FPGA （fifield programmable gate array）芯片。

處理器芯片包括 CPU， GPU， DSP 等，是用戶可編程的芯片; ASIC 是面向特定應用（application-specifific）的專用集成電路［8］，通常也稱之為全定制芯片，不可編程; FPGA 器件屬于專用集成電路中的一種半定制電路，是可 “編程” 的邏輯列陣，利用查找表來實現(xiàn)組合邏輯，但 FPGA 的 “編程” 與處理器芯片的軟件編程不同，主要是配置邏輯，可以理解為硬件編程。

從相對性能來看， ASIC 芯片最好，處理器芯片最差， FPGA 介于二者之間; 但是從應用的適應性來看，處理器芯片最好， FPGA 次之， ASIC 芯片最差。

值得注意的是這種分類標準并不是按照電路制造工藝，例如處理器芯片和 ASIC 芯片本質(zhì)上都是全定制的集成電路，處理器芯片本質(zhì)也是一種 ASIC，但與通常意義上 ASIC 的最大差別還在于是否具有指令集，有指令集的就更類似傳統(tǒng)的處理器，反之就歸類為 ASIC. 此外，處理器芯片由于其使用廣泛、出貨量大，與軟件生態(tài)聯(lián)系尤其緊密，所以將其獨立為一個大的類別。

無論是 DSP、GPU、AI 芯片、NPU，還是現(xiàn)在更新的各種 “XPU”，都是處理數(shù)據(jù)的芯片，最終都需要執(zhí)行二進制代碼的程序來完成計算。因此專用處理器設計也大都需要涉及如下 6 方面內(nèi)容：

（1）約定二進制代碼的格式，即指令;

（2）需要將指令變換為機器碼，即匯編;

（3）為了提高編程方便程度，需要將高層程序語言轉(zhuǎn)換為匯編語言，即編譯;

（4）為了提高編程的效率，提供了各種編程環(huán)境，即集成開發(fā)環(huán)境（integrated development environment， IDE）;

（5）充分復用高度優(yōu)化的代碼，即應用程序庫;

（6）為了方便程序調(diào)試，還需要提供各種仿真工具，即仿真器（emulator）。

所以，從系統(tǒng)抽象層次來看，與通用處理器幾乎沒有區(qū)別。但是不同的 DSIC 側(cè)重點不同，有些 DSIC 只提供 API （application programming interface）方式的調(diào)用，例如早期的 GPU，將編譯、匯編等過程全都凝結(jié)在運行時庫中，從用戶角度看，調(diào)用過程與使用 OpenCL ［9］中的 “內(nèi)建核函數(shù) （built-in kernels）” 類似，與調(diào)用普通的庫函數(shù)過程相同; 雖弱化的可編程性，但是強化了用戶使用的便利性。但也有些 DSIC，如 DSP，使用了大量底層編程，雖編程難度高，但方便精確地性能調(diào)優(yōu)。

DSP：靈活的數(shù)據(jù)格式

DSP 也許是最早出現(xiàn)的專用集成電路。 DSP 的使用范圍非常廣，從簡單的 MP3 播放器到最新一代的 5G 通信都有使用場景。常見的 DSP 大多帶有豐富的外設接口，例如 PCIe、以太網(wǎng)、UART、I2C等，尤其在很多嵌入式設備中，豐富的外設接口對于提高系統(tǒng)的集成度、降低成本和功耗都有很大幫助，所以很多 DSP 產(chǎn)品也演變成帶有豐富外設接口的 SoC （system on chip）芯片，如圖 2（a）所示。

但是 DSP 最大的特點還是進行數(shù)字信號處理的核。大多數(shù) DSP 由于使用場景多為移動設備，或者只是作為 CPU 系統(tǒng)的數(shù)據(jù)輸入前端，在系統(tǒng)中的地位并不高，通常在功耗、散熱等方面都不可能給予太高容限，所以功耗敏感、計算位寬對 DSP 很重要，定點、浮點，半精度、單精度、雙精度， 16 位、24 位、32 位、40 位等各種數(shù)據(jù)格式規(guī)范 “五花八門”。在尋址上， DSP 對于數(shù)據(jù)對齊方式也最靈活，設置了大量專門的指令對數(shù)據(jù)進行對齊操作。

TI 公司是 DSP 芯片的龍頭，被媒體評為是半導體行業(yè)利潤率最高的公司。 2019 財年營業(yè)總收入144 億美金，稅后凈利潤高達 50 億美金，利潤率高達 35%. 作為比較，同期 Intel 收入 720 億美金，利潤率 29%; 英偉達總營收 110 億美金，利潤率 25%. TI 公司的 DSP 主要分為 3 大系列： C2000 系列，集成了 AD 轉(zhuǎn)換、Flash 存儲等，主要用于控制馬達、變頻器等工控產(chǎn)品; C5000 系列， 16 位定點，主要用于便攜聲音、視頻、機頂盒等設備; C6000 系列，采用了 VLIW （very long instruction word）架構(gòu)，每秒執(zhí)行指令峰值可達百億條，主要用于數(shù)字通信、圖像增強、傳輸、加密解密等對性能要求更高的場景。下面就以比較復雜的 C6678 為例做簡要介紹，其頂層架構(gòu)如圖 2 所示。

1、通過 VLIW 架構(gòu)提高性能

在 C6000 系列的 DSP 中，采用了超長指令字（VLIW）技術(shù)，性能的提升主要是通過引入 SIMD（single instruction multiple data）來實現(xiàn)。從 2 路 16 位、4 路 8 位 SIMD 操作，到 8 路 16 位、4 路 32 位向量操作。為了支持較寬的向量化操作， C66x 系列 DSP 設置了 8 個功能單元、兩組寄存器堆文件、兩條獨立數(shù)據(jù)通路; 每組寄存器文件包含 32 個 32 位通用寄存器，而且可以支持 8， 16， 32， 40， 64 位等非常靈活的數(shù)據(jù)位寬打包存儲。例如一個完整 32 位寄存器連同相鄰寄存器的低 8 位存儲一個 40 位的浮點數(shù)，同時相鄰寄存器的高 24 位還可以用于存其他的數(shù)。乘法器支持 128， 40， 64 位數(shù)據(jù)。顯然支持那么多 “非標” 的定點和浮點數(shù)，如何來安排寄存器的分配成為一個很有挑戰(zhàn)的問題。

2、指令緩存和程序緩存分離

將指令與數(shù)據(jù)分離也就是著名的 “哈佛結(jié)構(gòu)”，一級程序緩存（L1P）采用直接映射，一級數(shù)據(jù)緩存（L1D）采用多路組相連。這樣導致了緩存替換策略的不同， L1P 采用新緩存行替換同一位置的舊緩存行，采用讀 – 分配（read-allocate）策略。相較而言， L1D 復雜的多，采用了最近最少使用（least recently used， LRU）替換策略和回寫（writeback）機制：當數(shù)據(jù)被更新時，并不立即更新相應的緩存位置和存儲器地址，而只做 “dirty” 標記，只有數(shù)據(jù)被替換出緩存，或者手動啟動一致性操作指令，或出現(xiàn)長距離訪問（此時所有高速緩存的局部性都極有可能被破壞），才會寫回到存儲器。這也說明指令的局部性是比數(shù)據(jù)的局部性顯著得多，而且對于核而言，指令緩存是只讀的，而數(shù)據(jù)緩存可讀可寫，從這個意義上看，將二者分開也是有好處的。此外， DSP 的緩存還支持很多先進的管理功能，例如強制凍結(jié)模式（freeze mode），可以防止中斷程序破壞已經(jīng)建立在緩存中的數(shù)據(jù)局部性，降低中斷恢復后 “冷啟動” 性能開銷。這些操作也全都由程序員來完成。

3、硬件指令支持一致性管理

多核并不是 CPU 的 “專利”， C6000 系列也提供多核的 DSP，由于多核引入會導致數(shù)據(jù)一致性的問題， C66x 系列 DSP 也提供了柵欄指令（MFENCE）來處理緩存回寫，強制或阻止一致性操作的執(zhí)行等，方便程序員管理數(shù)據(jù)一致性。

4、硬件化的帶寬管理防止運行阻塞

DSP 核中還設置了硬件化帶寬管理，負責管理一級數(shù)據(jù)緩存（L1D）、一級程序緩存（L1P）、二級緩存（L2）、寄存器配置總線等 4 類資源的訪問優(yōu)先級。訪問發(fā)起方包括 DSP、外部 DMA （enhanced direct memory access， EDMA）、內(nèi)部 DMA （internal direct memory access， IDMA）、數(shù)據(jù)一致性操作。

管理按照每次訪問授予優(yōu)先級，而不是按照訪問類型固定優(yōu)先級，通過設置競爭強度計數(shù)器來反映對資源的 “饑渴” 程度，即便是最低優(yōu)先級的訪問，隨著等待時間增加，優(yōu)先級就會逐漸升高，當達到最長等待周期數(shù)，就會強制授予一次訪問。而這些都是硬件管理的，程序員只能設置最長等待時間，不能設置競爭計數(shù)器。這樣的硬件化維護資源公平性的設置在 CPU 中并不常見。

由以上分析可以看出， DSP 作為一類典型的專用處理器，其結(jié)構(gòu)與數(shù)字信號處理需要豐富的 IO接口便于集成，強大的浮點處理能力支持高帶寬的信號處理，還提供了豐富的底層數(shù)據(jù)通路的控制手段方便專業(yè)用戶的性能調(diào)優(yōu)。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
20248

瀏覽量
252158
asic

asic

+關(guān)注

關(guān)注
34

文章
1274

瀏覽量
124554
神經(jīng)網(wǎng)絡

神經(jīng)網(wǎng)絡

+關(guān)注

關(guān)注
42

文章
4838

瀏覽量
107737
數(shù)據(jù)處理

數(shù)據(jù)處理

+關(guān)注

關(guān)注
0

文章
648

瀏覽量
29982

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

DSP篇：專用處理器比較分析（2022）

評論