91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

DSP篇:專用處理器比較分析(2022)

智能計算芯世界 ? 來源:專用處理器比較分析 ? 2023-05-22 09:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

專用處理器 (或?qū)S眉铀倨鳎?顧名思義, 就是用于處理 “特定應用” 的處理器, 相對于通用處理器而言, 這類處理器性能更高、功耗更低、通常價格也更便宜, 但是使用范圍也相對有限。 計算芯片產(chǎn)業(yè)在過去 50 年的發(fā)展歷程中, 比較成功的專用處理器門類只有數(shù)字信號處理器 (DSP)、圖形處理器(GPU) 和網(wǎng)絡處理器 (NPU), 這是 20 世紀 90 年代就已經(jīng)基本定型的格局。

AI芯片專利技術(shù)研發(fā)態(tài)勢

在過去 5 年中, 用于處理深度學習神經(jīng)網(wǎng)絡處理器 (AI 芯片) 也開始快速發(fā)展, 比較成功的案例包括 Google 公司的張量處理器 TPU、寒武紀公司的 DianNao 系列深度學習處理器 [5] 等。 專用處理器的最終目標不是替代通用 CPU, 而是與現(xiàn)有的通用 CPU 技術(shù)協(xié)作, 即將部分 CPU 運行效率低下的應用卸載 (offloading) 到用加速器上運行, 通過構(gòu)建異構(gòu)計算平臺來高效地處理計算任務。 從產(chǎn)業(yè)生態(tài)的視角來看, 相比于通用處理器的硬件與軟件分離的 “水平” 模式, 專用加速器更注重軟硬協(xié)同的 “垂直” 發(fā)展模式。

c372916c-f82f-11ed-90ce-dac502259ad0.png

從芯片的效能和適應性兩個維度來刻畫芯片的特征。 這里效能指的是單位功耗下提供的計算能力, 適應性就是通常意義下的通用性。 業(yè)界通常將數(shù)據(jù)處理芯片大體分為三大類: 處理器芯片、ASIC(application specifific integrated circuit) 芯片和 FPGA (fifield programmable gate array) 芯片。

處理器芯片包括 CPU, GPU, DSP 等, 是用戶可編程的芯片; ASIC 是面向特定應用 (application-specifific) 的專用集成電路 [8], 通常也稱之為全定制芯片, 不可編程; FPGA 器件屬于專用集成電路中的一種半定制電路, 是可 “編程” 的邏輯列陣, 利用查找表來實現(xiàn)組合邏輯, 但 FPGA 的 “編程” 與處理器芯片的軟件編程不同, 主要是配置邏輯, 可以理解為硬件編程。

從相對性能來看, ASIC 芯片最好, 處理器芯片最差, FPGA 介于二者之間; 但是從應用的適應性來看, 處理器芯片最好, FPGA 次之, ASIC 芯片最差。

值得注意的是這種分類標準并不是按照電路制造工藝, 例如處理器芯片和 ASIC 芯片本質(zhì)上都是全定制的集成電路, 處理器芯片本質(zhì)也是一種 ASIC, 但與通常意義上 ASIC 的最大差別還在于是否具有指令集, 有指令集的就更類似傳統(tǒng)的處理器, 反之就歸類為 ASIC. 此外, 處理器芯片由于其使用廣泛、出貨量大, 與軟件生態(tài)聯(lián)系尤其緊密, 所以將其獨立為一個大的類別。

無論是 DSP、GPU、AI 芯片、NPU, 還是現(xiàn)在更新的各種 “XPU”, 都是處理數(shù)據(jù)的芯片, 最終都需要執(zhí)行二進制代碼的程序來完成計算。 因此專用處理器設計也大都需要涉及如下 6 方面內(nèi)容:

(1) 約定二進制代碼的格式, 即指令;

(2) 需要將指令變換為機器碼, 即匯編;

(3) 為了提高編程方便程度, 需要將高層程序語言轉(zhuǎn)換為匯編語言, 即編譯;

(4) 為了提高編程的效率, 提供了各種編程環(huán)境, 即集成開發(fā)環(huán)境 (integrated development environment, IDE);

(5) 充分復用高度優(yōu)化的代碼, 即應用程序庫;

(6) 為了方便程序調(diào)試, 還需要提供各種仿真工具, 即仿真器 (emulator)。

c3a3270a-f82f-11ed-90ce-dac502259ad0.png

所以, 從系統(tǒng)抽象層次來看, 與通用處理器幾乎沒有區(qū)別。 但是不同的 DSIC 側(cè)重點不同, 有些 DSIC 只提供 API (application programming interface) 方式的調(diào)用, 例如早期的 GPU, 將編譯、匯編等過程全都凝結(jié)在運行時庫中,從用戶角度看, 調(diào)用過程與使用 OpenCL [9] 中的 “內(nèi)建核函數(shù) (built-in kernels)” 類似,與調(diào)用普通的庫函數(shù)過程相同; 雖弱化的可編程性, 但是強化了用戶使用的便利性。 但也有些 DSIC, 如 DSP, 使用了大量底層編程, 雖編程難度高, 但方便精確地性能調(diào)優(yōu)。

DSP: 靈活的數(shù)據(jù)格式

DSP 也許是最早出現(xiàn)的專用集成電路。 DSP 的使用范圍非常廣, 從簡單的 MP3 播放器到最新一代的 5G 通信都有使用場景。 常見的 DSP 大多帶有豐富的外設接口, 例如 PCIe、以太網(wǎng)、UARTI2C等, 尤其在很多嵌入式設備中, 豐富的外設接口對于提高系統(tǒng)的集成度、降低成本和功耗都有很大幫助, 所以很多 DSP 產(chǎn)品也演變成帶有豐富外設接口的 SoC (system on chip) 芯片, 如圖 2(a) 所示。

但是 DSP 最大的特點還是進行數(shù)字信號處理的核。 大多數(shù) DSP 由于使用場景多為移動設備, 或者只是作為 CPU 系統(tǒng)的數(shù)據(jù)輸入前端, 在系統(tǒng)中的地位并不高, 通常在功耗、散熱等方面都不可能給予太高容限, 所以功耗敏感、計算位寬對 DSP 很重要, 定點、浮點, 半精度、單精度、雙精度, 16 位、24 位、32 位、40 位等各種數(shù)據(jù)格式規(guī)范 “五花八門”。 在尋址上, DSP 對于數(shù)據(jù)對齊方式也最靈活, 設置了大量專門的指令對數(shù)據(jù)進行對齊操作。

TI 公司是 DSP 芯片的龍頭, 被媒體評為是半導體行業(yè)利潤率最高的公司。 2019 財年營業(yè)總收入144 億美金, 稅后凈利潤高達 50 億美金, 利潤率高達 35%. 作為比較, 同期 Intel 收入 720 億美金, 利潤率 29%; 英偉達總營收 110 億美金, 利潤率 25%. TI 公司的 DSP 主要分為 3 大系列: C2000 系列,集成了 AD 轉(zhuǎn)換、Flash 存儲等, 主要用于控制馬達、變頻器等工控產(chǎn)品; C5000 系列, 16 位定點, 主要用于便攜聲音、視頻、機頂盒等設備; C6000 系列, 采用了 VLIW (very long instruction word) 架構(gòu), 每秒執(zhí)行指令峰值可達百億條, 主要用于數(shù)字通信、圖像增強、傳輸、加密解密等對性能要求更高的場景。 下面就以比較復雜的 C6678 為例做簡要介紹, 其頂層架構(gòu)如圖 2 所示。

1、通過 VLIW 架構(gòu)提高性能

在 C6000 系列的 DSP 中, 采用了超長指令字 (VLIW) 技術(shù), 性能的提升主要是通過引入 SIMD(single instruction multiple data) 來實現(xiàn)。 從 2 路 16 位、4 路 8 位 SIMD 操作, 到 8 路 16 位、4 路 32 位向量操作。 為了支持較寬的向量化操作, C66x 系列 DSP 設置了 8 個功能單元、兩組寄存器堆文件、兩條獨立數(shù)據(jù)通路; 每組寄存器文件包含 32 個 32 位通用寄存器, 而且可以支持 8, 16, 32, 40, 64 位等非常靈活的數(shù)據(jù)位寬打包存儲。 例如一個完整 32 位寄存器連同相鄰寄存器的低 8 位存儲一個 40 位的浮點數(shù), 同時相鄰寄存器的高 24 位還可以用于存其他的數(shù)。 乘法器支持 128, 40, 64 位數(shù)據(jù)。 顯然支持那么多 “非標” 的定點和浮點數(shù), 如何來安排寄存器的分配成為一個很有挑戰(zhàn)的問題。

2、指令緩存和程序緩存分離

將指令與數(shù)據(jù)分離也就是著名的 “哈佛結(jié)構(gòu)”, 一級程序緩存 (L1P) 采用直接映射, 一級數(shù)據(jù)緩存(L1D) 采用多路組相連。 這樣導致了緩存替換策略的不同, L1P 采用新緩存行替換同一位置的舊緩存行, 采用讀 – 分配 (read-allocate) 策略。 相較而言, L1D 復雜的多, 采用了最近最少使用 (least recently used, LRU) 替換策略和回寫 (writeback) 機制: 當數(shù)據(jù)被更新時, 并不立即更新相應的緩存位置和存儲器地址, 而只做 “dirty” 標記, 只有數(shù)據(jù)被替換出緩存, 或者手動啟動一致性操作指令, 或出現(xiàn)長距離訪問 (此時所有高速緩存的局部性都極有可能被破壞), 才會寫回到存儲器。 這也說明指令的局部性是比數(shù)據(jù)的局部性顯著得多, 而且對于核而言, 指令緩存是只讀的, 而數(shù)據(jù)緩存可讀可寫, 從這個意義上看, 將二者分開也是有好處的。 此外, DSP 的緩存還支持很多先進的管理功能, 例如強制凍結(jié)模式(freeze mode), 可以防止中斷程序破壞已經(jīng)建立在緩存中的數(shù)據(jù)局部性, 降低中斷恢復后 “冷啟動” 性能開銷。 這些操作也全都由程序員來完成。

3、硬件指令支持一致性管理

多核并不是 CPU 的 “專利”, C6000 系列也提供多核的 DSP, 由于多核引入會導致數(shù)據(jù)一致性的問題, C66x 系列 DSP 也提供了柵欄指令 (MFENCE) 來處理緩存回寫, 強制或阻止一致性操作的執(zhí)行等, 方便程序員管理數(shù)據(jù)一致性。

4、硬件化的帶寬管理防止運行阻塞

DSP 核中還設置了硬件化帶寬管理, 負責管理一級數(shù)據(jù)緩存 (L1D)、一級程序緩存 (L1P)、二級緩存 (L2)、寄存器配置總線等 4 類資源的訪問優(yōu)先級。 訪問發(fā)起方包括 DSP、外部 DMA (enhanced direct memory access, EDMA)、內(nèi)部 DMA (internal direct memory access, IDMA)、數(shù)據(jù)一致性操作。

管理按照每次訪問授予優(yōu)先級, 而不是按照訪問類型固定優(yōu)先級, 通過設置競爭強度計數(shù)器來反映對資源的 “饑渴” 程度, 即便是最低優(yōu)先級的訪問, 隨著等待時間增加, 優(yōu)先級就會逐漸升高, 當達到最長等待周期數(shù), 就會強制授予一次訪問。 而這些都是硬件管理的, 程序員只能設置最長等待時間, 不能設置競爭計數(shù)器。 這樣的硬件化維護資源公平性的設置在 CPU 中并不常見。

由以上分析可以看出, DSP 作為一類典型的專用處理器, 其結(jié)構(gòu)與數(shù)字信號處理需要豐富的 IO接口便于集成, 強大的浮點處理能力支持高帶寬的信號處理, 還提供了豐富的底層數(shù)據(jù)通路的控制手段方便專業(yè)用戶的性能調(diào)優(yōu)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    20248

    瀏覽量

    252158
  • asic
    +關(guān)注

    關(guān)注

    34

    文章

    1274

    瀏覽量

    124554
  • 神經(jīng)網(wǎng)絡

    關(guān)注

    42

    文章

    4838

    瀏覽量

    107737
  • 數(shù)據(jù)處理
    +關(guān)注

    關(guān)注

    0

    文章

    648

    瀏覽量

    29982
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    MAX8620Y:便攜式設備微處理器DSP的理想μPMIC

    MAX8620Y:便攜式設備微處理器DSP的理想μPMIC 在便攜式設備的設計中,電源管理是一個關(guān)鍵環(huán)節(jié)。今天我們來探討一款專為便攜式設備中的低電壓微處理器DSP供電的電源管理集成
    的頭像 發(fā)表于 02-05 16:15 ?273次閱讀

    DPU數(shù)據(jù)處理器的核心功能和應用領域

    DPU,全稱數(shù)據(jù)處理器(Data Processing Unit),是一種專門用于處理數(shù)據(jù)中心中數(shù)據(jù)流動與基礎設施任務的專用處理器。它既不像CPU那樣直接參與最終的業(yè)務決策,也不像GPU般負責圖形
    的頭像 發(fā)表于 02-02 13:52 ?528次閱讀
    DPU數(shù)據(jù)<b class='flag-5'>處理器</b>的核心功能和應用領域

    探索NXP i.MX 93應用處理器家族:高效邊緣計算的理想之選

    探索NXP i.MX 93應用處理器家族:高效邊緣計算的理想之選 在當今的科技領域,邊緣計算正逐漸成為推動各行業(yè)創(chuàng)新發(fā)展的關(guān)鍵力量。NXP的i.MX 93應用處理器家族,憑借其卓越的性能、先進的技術(shù)
    的頭像 發(fā)表于 12-24 14:50 ?557次閱讀

    深入剖析PCA9452:i.MX 93應用處理器的理想電源管理方案

    深入剖析PCA9452:i.MX 93應用處理器的理想電源管理方案 在汽車電子應用的浪潮中,電源管理集成電路(PMIC)的性能直接影響著整個系統(tǒng)的穩(wěn)定性和可靠性。今天,我們就來詳細探討一款專為NXP
    的頭像 發(fā)表于 12-24 14:45 ?338次閱讀

    探索i.MX 91應用處理器家族:為邊緣應用帶來新可能

    探索i.MX 91應用處理器家族:為邊緣應用帶來新可能 在當今的物聯(lián)網(wǎng)和工業(yè)應用領域,對高性能、安全且節(jié)能的處理器需求日益增長。NXP的i.MX 91應用處理器家族正是為滿足這些需求而設計的,它為
    的頭像 發(fā)表于 12-24 11:50 ?858次閱讀

    瑞芯微SOC智能視覺AI處理器

    RK3568B2: 一款性能均衡、接口豐富的中高端AIoT應用處理器,是RK3568的優(yōu)化版本,主打穩(wěn)定與可靠性。CPU/GPU: 延續(xù)RK3568的4核A55 + G52 GPU架構(gòu),性能可靠
    發(fā)表于 12-19 13:44

    DSP的基礎

    高速數(shù)字信號處理技術(shù)是以DSP為核心,具有高速,實時的特點的一種信息處理技術(shù)。其本質(zhì)是信息的變換和提取。DSP(Digital Signal Processor),即數(shù)字信號
    發(fā)表于 11-20 06:35

    兆芯榮獲通用處理器性能測評基準工具CPUBench特殊貢獻獎

    2025年11月5日至7日,中國電子技術(shù)標準化研究院和上海賽西科技發(fā)展有限責任公司聯(lián)合主辦的“新產(chǎn)業(yè)標準化領航論壇”在上海東郊賓館正式召開。大會同期正式發(fā)布國內(nèi)處理器企業(yè)聯(lián)合研制的通用處理器性能測評
    的頭像 發(fā)表于 11-12 16:23 ?428次閱讀

    恩智浦推出i.MX 952人工智能應用處理器

    恩智浦半導體宣布推出i.MX 9系列的新成員——i.MX 952應用處理器。該處理器專為AI視覺、人機接口(HMI)及座艙感知應用而設計,通過集成eIQ Neutron神經(jīng)處理單元(NPU)驅(qū)動的傳感
    的頭像 發(fā)表于 10-27 09:15 ?3412次閱讀

    國產(chǎn)32位高性能Audio音頻數(shù)字信號處理器DSP)芯片-DU561

    音頻數(shù)字信號處理器DSP)的工作原理主要通過數(shù)字化處理提升音頻質(zhì)量,其核心流程包括信號采集、處理和輸出三個關(guān)鍵環(huán)節(jié)。
    的頭像 發(fā)表于 10-22 09:47 ?967次閱讀
    國產(chǎn)32位高性能Audio音頻數(shù)字信號<b class='flag-5'>處理器</b>(<b class='flag-5'>DSP</b>)芯片-DU561

    Analog Devices Inc. ADSP1802 SHARC?處理器數(shù)據(jù)手冊

    Analog Devices ADSP1802 SHARC^?^ 處理器是采用ADI Super Harvard架構(gòu)單芯片計算機(SHARC)的數(shù)字信號處理器(DSP)。ADSP1802 DS
    的頭像 發(fā)表于 05-29 14:36 ?1407次閱讀
    Analog Devices Inc. ADSP1802 SHARC?<b class='flag-5'>處理器</b>數(shù)據(jù)手冊

    HXS320F28027數(shù)字信號處理器(32位RISC-V DSP

    HXS320F28027數(shù)字信號處理器(32位RISC-V DSP)HXS320F28027是中科昊芯(Haawking)基于自主研發(fā)的H28x內(nèi)核推出的32位定點RISC-V DSP架構(gòu)數(shù)字信號
    發(fā)表于 05-21 10:21

    適用于單核、雙核和四核應用處理器的PMIC DA9063L-A數(shù)據(jù)手冊

    DA9063L-A 是一款功能強大的系統(tǒng)電源管理集成電路(PMIC),適用于單核、雙核和四核應用處理器,例如那些基于 ARM? Cortex?-A9和 Cortex-A15 架構(gòu)的處理器。 *附件
    的頭像 發(fā)表于 04-01 18:19 ?1044次閱讀
    適用于單核、雙核和四核應<b class='flag-5'>用處理器</b>的PMIC DA9063L-A數(shù)據(jù)手冊

    用于四核應用處理器的可編程DA9063 PMIC數(shù)據(jù)手冊

    DA9063 是一款功能強大的系統(tǒng) PMIC,適用于單核、雙核和四核應用處理器,例如基于 ARM Cortex-A9TM 和 Cortex-A15TM架構(gòu)的處理器。DA9063 采用可擴展的輸出電流
    的頭像 發(fā)表于 04-01 16:40 ?904次閱讀
    用于四核應<b class='flag-5'>用處理器</b>的可編程DA9063 PMIC數(shù)據(jù)手冊

    專用協(xié)議硬件 + R-IN引擎的微處理器RZ/N1L系列數(shù)據(jù)手冊

    。 *附件:帶專用協(xié)議硬件 + R-IN引擎的微處理器RZ N1L系列數(shù)據(jù)手冊.pdf 特性 中央處理器(CPU):Cortex-M3(主頻 125 兆赫茲) 電壓:輸入輸出(IO)電壓為 3 伏特
    的頭像 發(fā)表于 03-13 15:09 ?948次閱讀
    帶<b class='flag-5'>專用</b>協(xié)議硬件 + R-IN引擎的微<b class='flag-5'>處理器</b>RZ/N1L系列數(shù)據(jù)手冊