91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于RISC-V軟核CPU的國(guó)產(chǎn)FPGA CNN異構(gòu)方案的實(shí)現(xiàn)

紫光同創(chuàng)官微 ? 來(lái)源:紫光同創(chuàng)官微 ? 作者:紫光同創(chuàng)官微 ? 2022-11-18 11:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摘要:現(xiàn)場(chǎng)可編程門陣列(FPGA)具有低功耗、高性能和靈活性的特點(diǎn)。FPGA神經(jīng)網(wǎng)絡(luò)加速的研究正在興起,但大多數(shù)研究都基于國(guó)外的FPGA器件。為了改善國(guó)內(nèi)FPGA的現(xiàn)狀,提出了一種新型的卷積神經(jīng)網(wǎng)絡(luò)加速器,用于配備輕量級(jí)RISC-V軟核的國(guó)產(chǎn)FPGA(紫光同創(chuàng)PG2L100H)。所提出的加速器的峰值性能達(dá)到153.6 GOP/s,僅占用14K LUT(查找表)、32個(gè)DRM(專用RAM模塊)和208個(gè)APM(算術(shù)處理模塊)。所提出的加速器對(duì)于大多數(shù)邊緣AI應(yīng)用和嵌入式系統(tǒng)具有足夠的計(jì)算能力,為國(guó)內(nèi)FPGA提供了可能的AI推理加速方案。

背景

卷積神經(jīng)網(wǎng)絡(luò)在機(jī)器視覺(jué)任務(wù)中越來(lái)越流行,包括圖像分類和目標(biāo)檢測(cè)。如何在有限的條件下充分發(fā)揮FPGA的最大性能是各研究者的主要方向。如今,大多數(shù)CCN使用外國(guó)FPGA器件。由于國(guó)內(nèi)FPGA起步較晚,其相關(guān)開(kāi)發(fā)工具和設(shè)備落后于其他外國(guó)制造商。因此,在國(guó)內(nèi)FPGA上構(gòu)建高性能CNN并替換現(xiàn)有成熟的異構(gòu)方案是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。

Zhang[1]于2015年首次對(duì)卷積網(wǎng)絡(luò)推理中的數(shù)據(jù)共享和并行性進(jìn)行了深入分析和探索。Guo[2]提出的加速器在214MHz下達(dá)到了84.3 GOP/s的峰值性能。2016年,Qiu[3]更深入地探索了使用行緩沖器的加速器。本文提出了一種更高效、更通用的卷積加速器。提出的加速器峰值性能達(dá)到153.6GOP/s,僅占用14K LUT、32個(gè)DRM和208個(gè)APM。本文的章節(jié)安排如下,第2節(jié)介紹了我們提出的加速器的詳細(xì)設(shè)計(jì)以及基于RISC-V的加速器實(shí)現(xiàn)的控制調(diào)度方案。第3節(jié)給出了實(shí)驗(yàn)結(jié)果。

系統(tǒng)設(shè)計(jì)

整個(gè)RISC-V片上系統(tǒng)設(shè)計(jì)如圖1所示。該系統(tǒng)主要由RISC-V軟核CPU、指令/數(shù)據(jù)存儲(chǔ)器、總線橋、外圍設(shè)備、DMA(直接存儲(chǔ)器訪問(wèn))和卷積加速器組成。

bd2cb078-66ec-11ed-8abf-dac502259ad0.png

Fig. 1. 片上RISC-V系統(tǒng)設(shè)計(jì)圖

我們的工作主要在三個(gè)方面。首先,我們使用軟核CPU作為片上系統(tǒng)的主控,控制外設(shè),DMA,CNN加速器來(lái)實(shí)現(xiàn)數(shù)據(jù)調(diào)度和操作。其次,1D(一維)加速器被設(shè)計(jì)用于改變緩沖機(jī)制。第三,為紫光同創(chuàng)的FPGA設(shè)備設(shè)計(jì)了一個(gè)DMA IP,用于卷積加速的應(yīng)用。

A、RISC-V 軟核CPU 架構(gòu)

軟核。使用RISC-V軟核VexRiscv代替Ibex[4]構(gòu)建RISC-V的片上系統(tǒng)和面向軟件的方法可以使VexRiscv具有高度的靈活性和可擴(kuò)展性。

接口I2C和SPI等外圍設(shè)備通過(guò)APB3總線連接到RISC-V軟核。DMA和加速器通過(guò)PMB總線連接到RISC-V軟核。

指令與數(shù)據(jù)存儲(chǔ)。程序被交叉編譯以獲得一個(gè)特定的文件,該文件由JTAG燒錄到片上指令/數(shù)據(jù)存儲(chǔ)器中。

B、CNN 加速器結(jié)構(gòu)

輸入緩存。使用乒乓緩存來(lái)實(shí)現(xiàn)緩沖區(qū),可以有效地提高吞吐量。

輸出緩存。權(quán)重緩存模塊由一系列分布式RAM和串行到并行單元組成。

卷積。圖2中的1D卷積模塊分為四組,其中包含四個(gè)1D卷曲單元。每個(gè)單元負(fù)責(zé)1D卷積的一個(gè)信道。

合并。積分模塊有四組加法器樹(shù)。每組加法器樹(shù)將每組卷積運(yùn)算單元的結(jié)果相加,得到單向輸出結(jié)果。

累加。累加模塊中有四組FIFO和四個(gè)加法器。加速器一次只能接收四個(gè)通道的輸入特征圖數(shù)據(jù)。

量化。該量化模塊由乘法單元和移位單元組成。它通過(guò)比例變換將24位累加結(jié)果重新轉(zhuǎn)換為8位[5]。

激活。激活功能通過(guò)查找由一系列分布式RAM組成的表來(lái)實(shí)現(xiàn)。它存儲(chǔ)ReLu、Leaky ReLu和sigmoid函數(shù)的INT8函數(shù)表。

池化。確定當(dāng)前卷積層是否與池化層級(jí)聯(lián),然后決定是否使用池化模塊來(lái)完成池化操作。

輸出緩存。輸出緩沖器由FIFO而不是乒乓緩存實(shí)現(xiàn)。輸出高速緩存FIFO將結(jié)果存儲(chǔ)回片外存儲(chǔ)器,作為下一卷積層的輸入。

bd469cd6-66ec-11ed-8abf-dac502259ad0.png

Fig. 2. CNN 加速器實(shí)現(xiàn)

C、DMA 結(jié)構(gòu)

神經(jīng)網(wǎng)絡(luò)不僅對(duì)計(jì)算能力有很高的要求,而且對(duì)內(nèi)存也有很大的需求。中低端FPGA通常需要DDR SRAM(雙數(shù)據(jù)速率同步動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)來(lái)承載整個(gè)神經(jīng)網(wǎng)絡(luò)和所有中間運(yùn)算結(jié)果的權(quán)重。紫光同創(chuàng)的FPGA的DDR3內(nèi)存驅(qū)動(dòng)器IP為用戶提供了簡(jiǎn)化AXI4總線的內(nèi)存訪問(wèn)接口。

由于Simpled AXI和AXI之間的標(biāo)準(zhǔn)差異,需要新的DMA設(shè)計(jì)。DMA設(shè)計(jì)如下。讀和寫(xiě)地址通道由RISC-V軟核直接控制。讀寫(xiě)數(shù)據(jù)通道的FIFO用作卷積加速器和DDR3驅(qū)動(dòng)器IP的緩沖器,以完成端口轉(zhuǎn)換。

D、實(shí)現(xiàn)細(xì)節(jié)

1、一維卷積單元陣列設(shè)計(jì)

神經(jīng)網(wǎng)絡(luò)不僅對(duì)計(jì)算能力有很高的要求,而且對(duì)內(nèi)存也有很大的需求。中低端FPGA通常需要DDR SRAM(雙數(shù)據(jù)速率同步動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)來(lái)承載整個(gè)神經(jīng)網(wǎng)絡(luò)和所有中間運(yùn)算結(jié)果的權(quán)重。紫光同創(chuàng)的FPGA的DDR3內(nèi)存驅(qū)動(dòng)器IP為用戶提供了簡(jiǎn)化AXI4總線的內(nèi)存訪問(wèn)接口。

由于Simpled AXI和AXI之間的標(biāo)準(zhǔn)差異,需要新的DMA設(shè)計(jì)。DMA設(shè)計(jì)如下。讀和寫(xiě)地址通道由RISC-V軟核直接控制。讀寫(xiě)數(shù)據(jù)通道的FIFO用作卷積加速器和DDR3驅(qū)動(dòng)器IP的緩沖器,以完成端口轉(zhuǎn)換。

2、卷積加速器控制

本文提出了一種基于指令隊(duì)列的設(shè)計(jì),以減少RISC-V軟核中DMA和加速器的響應(yīng)延遲。RISC-V CPU可以連續(xù)發(fā)送多個(gè)存儲(chǔ)器讀寫(xiě)請(qǐng)求指令和多個(gè)操作調(diào)度控制指令,而不用等待DMA和加速器的反饋。DMA和加速器從隊(duì)列中獲取指令,任務(wù)完成后直接從隊(duì)列中取出下一條指令,無(wú)需等待相應(yīng)的CPU,從而實(shí)現(xiàn)低延遲調(diào)度。

bd61ff08-66ec-11ed-8abf-dac502259ad0.png

Fig. 3. 1X3 一維卷積原理圖

bd75d1c2-66ec-11ed-8abf-dac502259ad0.png

Fig. 4. 一維卷積單元硬件實(shí)現(xiàn)

實(shí)現(xiàn)結(jié)果和備注

通過(guò)在PG2L100H和X7Z020上實(shí)現(xiàn)相同配置的CNN加速器,完成了CNN加速器的性能測(cè)試,驗(yàn)證了國(guó)產(chǎn)FPGA CNN加速方案的可行性。加速器的資源消耗和性能如表I和表II所示。

bd89414e-66ec-11ed-8abf-dac502259ad0.png

TABLE I 資源利用

PG2L100H和X7Z020的資源消耗相似。PG2L100H需要額外的邏輯資源來(lái)構(gòu)建VexRiscv CPU,而X7Z020為AXI DMA IP使用更多的邏輯資源。就加速器性能而言,可從表II中看出。由于FPGA器件架構(gòu)的差異,與X7Z020相比,加速器的卷積運(yùn)算在PG2L100H上只能在200MHz下實(shí)現(xiàn)更好的收斂。RISC-V軟核只能在100MHz下實(shí)現(xiàn)定時(shí)收斂。

bda6cc50-66ec-11ed-8abf-dac502259ad0.png

TABLE II 性能對(duì)比

我們提出了一種基于RISC-V的一維卷積運(yùn)算的新設(shè)計(jì)。該加速器在國(guó)內(nèi)FPGA上的實(shí)現(xiàn)和部署已經(jīng)完成,其性能與具有相同規(guī)模硬件資源的國(guó)外FPGA相當(dāng)。

本文論證了基于國(guó)產(chǎn)FPGA的CNN異構(gòu)方案的可行性,該研究是國(guó)產(chǎn)FPGA應(yīng)用生態(tài)中CNN加速領(lǐng)域的一次罕見(jiàn)嘗試。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1660

    文章

    22412

    瀏覽量

    636351
  • 存儲(chǔ)器
    +關(guān)注

    關(guān)注

    39

    文章

    7739

    瀏覽量

    171678
  • RISC-V
    +關(guān)注

    關(guān)注

    48

    文章

    2886

    瀏覽量

    53024
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    E203提高CPU時(shí)鐘頻率方法

    本文將分享我們團(tuán)隊(duì)提高E203主頻的辦法。 查閱芯來(lái)科技官方出版的《手把手教你設(shè)計(jì)CPU——RISC-V處理器篇》教材,我們發(fā)現(xiàn),原本設(shè)計(jì)的E203主時(shí)鐘域應(yīng)該是100MHZ
    發(fā)表于 10-29 06:19

    RISC-V B擴(kuò)展介紹及實(shí)現(xiàn)

    B擴(kuò)展簡(jiǎn)介 RISCV B擴(kuò)展指的是RISCV用于位運(yùn)算加速的一個(gè)擴(kuò)展指令集,目的是使用一條指令實(shí)現(xiàn)原本需要2-3條指令才能實(shí)現(xiàn)的位操作指令。具體包含內(nèi)容如下: B擴(kuò)展就是RISC-V一個(gè)可選
    發(fā)表于 10-21 13:01

    【飛凌T527N開(kāi)發(fā)板試用】異構(gòu)RISC-V核心使用體驗(yàn)

    、專門用于特定任務(wù)的“片上系統(tǒng)服務(wù)核心” 。這為整個(gè)SoC(系統(tǒng)級(jí)芯片)帶來(lái)了根本性的優(yōu)勢(shì)。 T527的異構(gòu)RISC-V核心主要帶來(lái)三大層面的好處: 效率與功耗優(yōu)化 :實(shí)現(xiàn)任務(wù)分工,大幅提升能效比。如
    發(fā)表于 08-19 21:45

    智芯公司RISC-V高性能CPU芯片獲得權(quán)威認(rèn)可

    近日,智芯公司自主研發(fā)的RISC-V高性能CPU芯片通過(guò)工信部直屬中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院賽西實(shí)驗(yàn)室檢測(cè),標(biāo)志著智芯公司在RISC-V高性能CPU芯片領(lǐng)域取得關(guān)鍵突破,自主研發(fā)實(shí)力獲得
    的頭像 發(fā)表于 06-16 17:32 ?1585次閱讀

    RISC-V架構(gòu)CPU的RAS解決方案

    RISC-V架構(gòu)以追趕者的姿態(tài)在多個(gè)應(yīng)用領(lǐng)域與X86架構(gòu)和ARM架構(gòu)展開(kāi)競(jìng)爭(zhēng)。在服務(wù)器應(yīng)用領(lǐng)域,RISC-V架構(gòu)正在重新定義服務(wù)器芯片領(lǐng)域必備的安全、虛擬化和RAS等規(guī)格和規(guī)范。服務(wù)器CPU芯片作為
    的頭像 發(fā)表于 06-06 17:03 ?1814次閱讀
    <b class='flag-5'>RISC-V</b>架構(gòu)<b class='flag-5'>CPU</b>的RAS解決<b class='flag-5'>方案</b>

    DC-ROMA RISC-V AI PC 正式發(fā)布!

    01RISC-V歷史進(jìn)程的重要里程碑深度數(shù)智攜手Framework,并采用奕斯偉計(jì)算的先進(jìn)RISC-V多功能智能計(jì)算SoC——EIC7702X(搭載8SiFive高性能P550CPU
    的頭像 發(fā)表于 05-13 08:03 ?1107次閱讀
    DC-ROMA <b class='flag-5'>RISC-V</b> AI PC 正式發(fā)布!

    大象機(jī)器人攜手進(jìn)迭時(shí)空推出 RISC-V 全棧開(kāi)源六軸機(jī)械臂產(chǎn)品

    集成于同一硬件平臺(tái)。內(nèi)置RISC-V AI,接入ONNXRuntime加速框架,可快速部署Transformer、CNN等主流算法,實(shí)現(xiàn)視覺(jué)跟蹤、語(yǔ)音交互與自主決策的一體化應(yīng)用。 低
    發(fā)表于 04-25 17:59

    大象機(jī)器人×進(jìn)迭時(shí)空聯(lián)合發(fā)布全球首款RISC-V全棧開(kāi)源小六軸機(jī)械臂

    高性能RISC-V CPU、RISC-V AI、NoC總線、RISC-V AI
    的頭像 發(fā)表于 04-25 14:19 ?1803次閱讀
    大象機(jī)器人×進(jìn)迭時(shí)空聯(lián)合發(fā)布全球首款<b class='flag-5'>RISC-V</b>全棧開(kāi)源小六軸機(jī)械臂

    資料分享 全志T536(異構(gòu)多核ARMCortex-A55+玄鐵E907 RISC-V)工業(yè)評(píng)估板說(shuō)明書(shū)

    創(chuàng)龍科技TLT536-EVM是一款基于全志科技T536MX-CEN2/T536MX-CXX四ARM Cortex-A55 + 玄鐵E907 RISC-V異構(gòu)多核處理器設(shè)計(jì)的國(guó)產(chǎn)工業(yè)評(píng)
    的頭像 發(fā)表于 04-11 14:22 ?1659次閱讀
    資料分享 全志T536(<b class='flag-5'>異構(gòu)</b>多核ARMCortex-A55+玄鐵E907 <b class='flag-5'>RISC-V</b>)工業(yè)評(píng)估板說(shuō)明書(shū)

    FPGARISC-V淺談

    全球半導(dǎo)體產(chǎn)業(yè)競(jìng)爭(zhēng)格局正在經(jīng)歷深刻變革,物聯(lián)網(wǎng)、邊緣計(jì)算等新興技術(shù)的蓬勃發(fā)展,讓RISC-V憑借其開(kāi)源、精簡(jiǎn)以及模塊化的靈活優(yōu)勢(shì),日益成為業(yè)界焦點(diǎn),也為全球半導(dǎo)體產(chǎn)業(yè)注入新的活力與挑戰(zhàn)
    發(fā)表于 04-11 13:53 ?677次閱讀
    <b class='flag-5'>FPGA</b>與<b class='flag-5'>RISC-V</b>淺談

    全志T536(異構(gòu)多核ARMCortex-A55+玄鐵E907 RISC-V)工業(yè)核心板說(shuō)明書(shū)

    創(chuàng)龍科技SOM-TLT536是一款基于全志科技T536MX-CEN2/T536MX-CXX四ARM Cortex-A55 + 玄鐵E907 RISC-V異構(gòu)多核處理器設(shè)計(jì)的全國(guó)產(chǎn)工業(yè)
    的頭像 發(fā)表于 04-08 17:34 ?2233次閱讀
    全志T536(<b class='flag-5'>異構(gòu)</b>多核ARMCortex-A55+玄鐵E907 <b class='flag-5'>RISC-V</b>)工業(yè)核心板說(shuō)明書(shū)

    原來(lái),它們用的都是國(guó)產(chǎn)RISC-V芯片

    RISC-V憑借指令集的靈活性與生態(tài)的開(kāi)放性,正在重塑中國(guó)芯片創(chuàng)新的范式。作為國(guó)產(chǎn)化設(shè)備的推動(dòng)者,ZLG致遠(yuǎn)電子的多款設(shè)備已采用國(guó)產(chǎn)RISC-V芯片,展現(xiàn)了其在推動(dòng)芯片自主可控方面的積
    的頭像 發(fā)表于 04-02 11:42 ?1293次閱讀
    原來(lái),它們用的都是<b class='flag-5'>國(guó)產(chǎn)</b><b class='flag-5'>RISC-V</b>芯片

    芯來(lái)科技攜手芯芒科技發(fā)布RISC-V CPU系統(tǒng)仿真平臺(tái)

    專業(yè)RISC-V處理器IP及解決方案公司芯來(lái)科技與杭州芯芒科技深入合作,共同研發(fā)推出芯來(lái)全系列RISC-V CPU系統(tǒng)仿真平臺(tái)。幫助下游SoC和產(chǎn)品開(kāi)發(fā)團(tuán)隊(duì)基于該仿真平臺(tái)快速構(gòu)建從芯片
    的頭像 發(fā)表于 03-19 14:36 ?1727次閱讀

    OrangePi RV2發(fā)布: 8RISC-V AI CPU,“OpenHarmony5.0?X DeepSeek&amp;quot;引領(lǐng)智能未來(lái)

    繼剛剛發(fā)布OrangePiRV之后,香橙派又為大家?guī)?lái)了一款RISC-V開(kāi)發(fā)板OrangePiRV2。OrangePiRV2是香橙派在RISC-V布局的一個(gè)標(biāo)志性產(chǎn)品,采用KyX18
    的頭像 發(fā)表于 03-10 13:35 ?1605次閱讀
    OrangePi RV2發(fā)布: 8<b class='flag-5'>核</b><b class='flag-5'>RISC-V</b> AI <b class='flag-5'>CPU</b>,“OpenHarmony5.0?X DeepSeek&amp;quot;引領(lǐng)智能未來(lái)

    基于RISC-V鎖步架構(gòu)國(guó)產(chǎn)MCU芯片技術(shù)

    與安全性的MCU產(chǎn)品。然而,在汽車電子、工業(yè)控制等高可靠性場(chǎng)景中,國(guó)產(chǎn)芯片仍需突破功能安全認(rèn)證、復(fù)雜環(huán)境適應(yīng)性等技術(shù)壁壘。 AS32X601是國(guó)科安芯研制的一款32位RISC-V指令集MCU,采用雙鎖步架構(gòu),主頻高達(dá)180MH
    的頭像 發(fā)表于 03-08 18:40 ?1599次閱讀
    基于<b class='flag-5'>RISC-V</b>雙<b class='flag-5'>核</b>鎖步架構(gòu)<b class='flag-5'>國(guó)產(chǎn)</b>MCU芯片技術(shù)