91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

開發(fā)加速程序前如何正確設計程序架構?

YCqV_FPGA_EETre ? 來源:XILINX開發(fā)者社區(qū) ? 作者:賽靈思開發(fā)者 ? 2021-06-11 16:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在開發(fā)一個加速程序的之前,有一個很重要的步驟:正確設計程序架構。開發(fā)人員需要明確軟件應用程序中哪一部分是需要硬件加速的,并且它多少的并行量,以保證硬件加速器件(FPGA)能完美發(fā)揮其作用。

本文將分為5個步驟來介紹:

1. 基準和建立目標

2. 確定加速部分

3. 確定FPGA硬件加速并行量

4. 確定軟件部分并行量

5. 微調(diào)架構細節(jié)。

1.

基準和建立目標

首先要測試應用程序的運行時間和吞吐量,來確定當前應用程序在現(xiàn)有平臺的的基準性能。這些數(shù)據(jù)應涵蓋整個應用程序(起始到結(jié)束)的性能和各個主要函數(shù)的性能。通常使用valgrind,callgrind和GNU gprof這些測試軟件來獲得應用程序的性能數(shù)據(jù),它們會顯示應用程序中所有的函數(shù)數(shù)量以及各個函數(shù)的執(zhí)行時間。通過這些數(shù)據(jù),我們可以找到耗時最長的部分,然后放到FPGA上進行加速。

評估運行時間

測試運行時間是軟件開發(fā)的基本流程,可以使用一些常用的測試軟件,或者插入計時器和性能計數(shù)器來完成此項操作。

評估吞吐量

這里的吞吐量是指數(shù)據(jù)被處理的速率。對于計算給定函數(shù)的吞吐量,具體公式為函數(shù)處理的數(shù)據(jù)除以函數(shù)處理的時間,如下:

TSW= max (VINPUT, VOUTPUT) / Running Time

如果是處理固定的數(shù)據(jù)量,只要簡單的檢查代碼就能知道吞吐量的大小。但在一些情況下,數(shù)據(jù)是可變的,那么插入計數(shù)器來測量吞吐量的大小是比較實用的。

確定最大可實現(xiàn)的吞吐量

在大多數(shù)加速系統(tǒng)中,最大可實現(xiàn)吞吐量受PCIe總線的限制。PCIe總線受很多因素的影響,例如母板,驅(qū)動,目標板卡和發(fā)送數(shù)據(jù)大小等等。運行DMA測試能夠測試PCIe發(fā)送的有效吞吐量,從而確定加速性能潛力的上限。在安裝Alveo板卡后,我們可以使用xbutil dmatest命令來測試板卡的PCIe性能。

建立總體加速目標

在開發(fā)過程中盡早確定加速目標是非常有必要的,基于基準性能的加速目標會決定分析和決策的走向。加速目標可以是硬性的也可以是軟性的。例如,實時視頻應用程序有每秒處理60幀的嚴格硬性目標,而數(shù)據(jù)科學應用程序的軟性目標是比其他可代替實現(xiàn)方法快10倍。所以無論哪種方式,領域?qū)I(yè)知識對于設置可實現(xiàn)的加速目標都很重要。

2.

確定加速部分

評估基準性能后,下一步就是確定哪一個函數(shù)需要在FPGA上加速。當選擇哪個函數(shù)用于加速時,有兩個方面需要考慮到:

性能瓶頸:應用程序中有哪些函數(shù)需要著重關注

加速潛力:這些函數(shù)是否有加速的潛力

確定性能瓶頸

在一個純粹的順序進行的應用程序中,可以通過解析報告很容易甄別到性能瓶頸。然而,大多數(shù)現(xiàn)實中的應用程序都是多進程,因此在尋找性能瓶頸的時候考慮并行性很重要。一個很簡單的例子:

204adcd0-ca4e-11eb-9e57-12bb97331649.png

如上圖中是一個應用程序中兩條并行的路徑,長度表示它們運行消耗時間。從這里我們看出,僅僅加速A,B進程的某一個并不能提高應用程序的整體性能。即使你將A2加速100倍,該應用程序的性能還是被A1和B進程鉗制。所以考慮加速對象時,要考慮整個應用程序的性能,而不是單個函數(shù)的性能。

確定加速潛力

作為軟件程序中的瓶頸函數(shù)不一定具有加速的潛力,通常需要進行詳細分析才能準確判斷給定函數(shù)的實際加速潛力。但是,有時候一些簡單的指導方法也能確定一個函數(shù)是否有加速潛力:

1. 選擇運算復雜度比較大的,相比于順序計算來說,它可以在FPGA上可以使用并行,流水線來提高效率。

2. 相對于輸入輸出來說的,選擇運算強度比較大的,因為這樣數(shù)據(jù)搬移時間開銷占用整個加速時間比率來說會低一些。

3. 選擇那些能夠數(shù)據(jù)重用,對內(nèi)存訪問比較少的,因為這可以是數(shù)據(jù)更容易在加速器中緩存,減少對全局內(nèi)存的訪問。

4. 對比函數(shù)吞吐量和FPGA吞吐量的比值,以確定最大可加速的倍數(shù)。

3.

確定FPGA硬件加速并行量

在前面的步驟中確定哪個函數(shù)用于加速之后,接下來就要確定使用多少的并行量來達到這一目標。內(nèi)核(kernel)的并行性可以分為大致兩種,一種是流水線形式,即是輸入和處理數(shù)據(jù)同時進行;另一種是同時處理多個任務,即是擁有多個輸入,多個任務并行處理。

評估硬件吞吐量(非并行)

沒有進行并行化的內(nèi)核(kernel)吞吐量可以近似為:

THW = Frequency(頻率) / Computational Intensity(計算強度) = Frequency * max(VINPUT,VOUTPUT) / VOPS

頻率就是kernel的時鐘頻率。這個值是由特定的平臺決定,比如,Alveo U200的最大kernel時鐘是300Mhz。VINPUT,VOUTPUT是輸入輸出數(shù)據(jù),VOPS是操作總數(shù)。由此可以看出,大量的操作數(shù)和少量的數(shù)據(jù)的函數(shù)更適合加速。

確定所需的并行量

經(jīng)過上述計算后,可以估算出初始的HW/SW性能比:

Speed-up = THW/TSW = Fmax * Running Time /VOPS

沒有使用并行運算,則初始的加速(speed-up)通常會小于1。

接下來就要計算多少并行量可以滿足性能目標:

Parallelism Needed = TGoal / THW = TGoal * Vops / (Fmax * max(VINPUT, VOUTPUT))

并行方式可以通過多種方式實現(xiàn):拓展數(shù)據(jù)路徑,使用多個計算引擎,使用多個kernel實例,開發(fā)人員應根據(jù)他們的需求和應用程序的特點確定最佳組合方式。

確定數(shù)據(jù)路徑應并行處理多少個樣本

一種可能性是通過創(chuàng)建更寬的數(shù)據(jù)路徑(數(shù)據(jù)的輸入和輸出的過程)然后并行處理更多數(shù)據(jù)以便加快計算速度。有些算法很適合這種方法,而有些則不適用。重要的是要了解這個算法的本質(zhì),確定這種方法是否可運用。如果可運用,那么并行處理多少數(shù)據(jù)才能滿足性能目標也是需要考慮的。

運用更寬的數(shù)據(jù)路徑、并行處理更多數(shù)據(jù)這些方法,本質(zhì)是通過減少加速函數(shù)等待時間(運行時間)來實現(xiàn)提高性能的。

確定在FPGA中可以(應該)實例化多少個kernel

如果數(shù)據(jù)路徑無法并行化(或不夠充分),則請考慮添加更多kernel實例,這通常被稱為使用多個計算單元(CU)。添加更多的kernel實例的本質(zhì)是允許加速函數(shù)更多的調(diào)用,從而提高應用程序的性能,如下所示。多個數(shù)據(jù)集由不同的實例并發(fā)處理。只要主機應用程序可以保持kernel繁忙,應用程序的性能就會隨著實例數(shù)的增加而線性增加。

在Vitis中,很容易通過添加額外的kernel實例來提高加速性能,不需要過多的代碼調(diào)整。在這一點上,開發(fā)人員應該充分了解硬件中滿足性能目標所需的并行度,結(jié)合數(shù)據(jù)路徑寬度和kernel實例來達到預期的目標。

4.

確定軟件部分并行量

雖然FPGA及其kernel旨在提供潛在的并行性,但是必須對軟件應用程序進行設計以便利用這種潛在的并行性。

軟件應用程序中的并行性主要是以下幾方面:

?最大限度地減少空閑時間,并在kernel運行時執(zhí)行其他任務。

?保持kernel處于活動狀態(tài),以便盡早并經(jīng)常執(zhí)行新的計算。

?優(yōu)化與FPGA之間的數(shù)據(jù)傳輸。

host程序總是處于繁忙狀態(tài)并且計劃執(zhí)行下一步的操作,而kernel端是處理當前的任務。所以,host程序必須統(tǒng)籌與kernel的數(shù)據(jù)傳輸,并且向kernel端發(fā)送請求,不然再多的kernel也是沒有效果的。

在kernel運行時最大程度地減少CPU空閑時間

FPGA加速是將某些計算從主機處理器轉(zhuǎn)移到FPGA的kernel中,在純順序模型中,應用程序?qū)㈤e置地等待結(jié)果,準備并回復處理。設計軟件應用程序以避免此類空閑周期,首先是確定不依賴kernel結(jié)果的應用程序部分,然后重新設計,以便這些函數(shù)可以在主機處理器上與FPGA中運行的kernel同時運行處理。

保持kernel利用率

Kernel是在FPGA中的,僅在應用程序請求它們時才運行。為了最大程度地提高性能,應使kernel一致處于繁忙(工作)狀態(tài)。從概念上講,這是通過在當前請求完成之前發(fā)出下一個請求來實現(xiàn)的。這可以實現(xiàn)流水線式執(zhí)行和重復執(zhí)行,使kernel得到最佳利用。

原始的應用程序重復的調(diào)用 func1,func2和func3。針對這個應用程序?qū)獎?chuàng)建了三個kernel是K1,K2和K3。最平庸的實現(xiàn)是將三個kernel按順序運行,就像原始的應用程序一樣。但是,這意味著每個kernel只有三分之一的時間處于工作狀態(tài)。更好的方法是重構軟件應用程序,以便它可以向kernel發(fā)出流水線請求。這允許K1在K2處理K1的輸出的同時開始處理新的數(shù)據(jù)集。通過這個方法,三個kernel以最大化的利用率不斷運行。

優(yōu)化與FPGA之間的數(shù)據(jù)傳輸

在加速的應用程序中,必須將數(shù)據(jù)從主機傳輸?shù)紽PGA,尤其是基于PCIe的應用程序中。這就引入了延遲,對于應用程序的整體性能而言,可能是非常昂貴的。數(shù)據(jù)需要在正確的時間被傳輸,如果kernel的運行需要等待數(shù)據(jù),那么應用程序的性能會收到負面影響。因此,重要的是在kernel需要數(shù)據(jù)時提前傳輸數(shù)據(jù)。這可以通過重復數(shù)據(jù)傳輸、kernel執(zhí)行來實現(xiàn),這可以隱藏數(shù)據(jù)傳輸?shù)牡却龝r間開銷,并避免kernel等待數(shù)據(jù)的情況。

優(yōu)化數(shù)據(jù)傳輸?shù)牧硪环N方法是傳輸最佳大小的緩沖區(qū)。如下圖所示,有效的PCIe吞吐量根據(jù)傳輸?shù)木彌_區(qū)大小而有很大的差異。緩沖區(qū)越大,吞吐量越好,從而確保加速器始終具有可操作的數(shù)據(jù)而不會浪費時間。通常來說,最好進行1MB或更大的數(shù)據(jù)傳輸。預先運行DMA測試對于找到最佳緩沖區(qū)大小可能很有用。同樣,在確定最佳緩沖區(qū)大小時,請考慮大緩沖區(qū)對資源利用率和傳輸延遲的影響。

Xilinx建議在一個公共緩沖區(qū)內(nèi)對多組數(shù)據(jù)進行分組,以實現(xiàn)最大可能的吞吐量。

概念化應用程序時間線

開發(fā)人員現(xiàn)在應該對哪些函數(shù)需要加速,需要什么并行性才能達到性能目標以及如何交付應用程序有很好的了解。在這一點上,以應用程序時間表的形式總結(jié)信息是非常有用的。應用程序時間軸序列(例如“保持Kernels使用率”中所示的序列)是應用程序在運行時表現(xiàn)性能和并行化非常有效的方法。它們可以展示應用程序如何調(diào)動體系結(jié)構中潛在的并行性。

Vitis軟件平臺會從實際應用程序運行中生成時間軸視圖。如果開發(fā)人員設計了預期的時間表,則可以將其與實際結(jié)果進行比較,從而確定潛在的問題,然后迭代并收斂到最佳結(jié)果,如上圖所示。

5.

微調(diào)架構細節(jié)

在正式編寫應用程序及其kernel之前,還有最后一步:從頂層決策中細化和提煉次級體系架構的細節(jié)。

確定最終kernel邊界

之前已經(jīng)有過討論,通過創(chuàng)建多個kernel的示例可以提高性能。然而,增加CU(compute unit)會對IO端口,帶寬和資源有額外地消耗。

在Vitis軟件平臺流程中,kernel端口的最大寬度為512,并且FPGA在資源方面也具有固定的成本,并不是無限消耗。重要的是,目標平臺也對可使用的最大端口設置了限制。所以我們要注意這些限制,以最佳方式充分使用這些端口及其帶寬。

使用多個CU進行擴展的另一種方法是通過在內(nèi)核中添加多個引擎(engine)進行擴展。與添加更多CU的方式來提高性能一樣,此方法就是用在內(nèi)核中的不同engine同時處理多個數(shù)據(jù)集。

將多個engine放置在同一kernel中可充分利用kernel I / O端口的帶寬。如果數(shù)據(jù)路徑engine不需要端口的全部寬度,則在kernel中添加其他engine比在其中創(chuàng)建具有單個engine的多個CU效率更高。

在kernel中放置多個engine還可以減少端口數(shù)量和事務數(shù)量到需要仲裁的全局內(nèi)存中,從而提高了有效帶寬。另一方面,采用這種方法需要在開發(fā)kernel時考慮I / O多路復用行為,盡可能地減少全局內(nèi)存的訪問。這是開發(fā)人員需要做出的權衡。

確定kernel的位置和連接性

確定kernel邊界后,開發(fā)人員要明確實例kernel的數(shù)量和連接到全局內(nèi)存資源的端口數(shù)量。在這一點上,了解目標平臺的功能以及哪些全局內(nèi)存資源可用很重要。例如,AlveoU200數(shù)據(jù)中心加速卡具有分布在三個超級邏輯區(qū)域(SLR)中的4 x 16 GB DDR4存儲區(qū)和3 x 128 KB的PLRAM存儲區(qū)。有關更多信息,請參閱《 Vitis Software Platform Release Notes》。

如果kernel是工廠,則全局內(nèi)存是貨物往返工廠的倉庫。SLR就像獨特的工業(yè)區(qū),可以在其中建立倉庫和工廠。雖然可以將貨物從一個區(qū)域的倉庫轉(zhuǎn)移到另一個區(qū)域的工廠,但這會增加延遲和復雜性。

使用多個DDR有助于平衡數(shù)據(jù)傳輸負載并提高性能。但是,這也會帶來成本,因為每個DDR控制器都會消耗FPGA資源。在決定如何將kernel端口連接到內(nèi)存庫時,請均衡這些考慮因素。

在完善了這些架構細節(jié)之后,開發(fā)人員就應該已經(jīng)掌握kernel以及整個應用程序所需的所有信息了。

原文標題:開發(fā)者分享 | 如何確定一個硬件加速應用

文章出處:【微信公眾號:FPGA開發(fā)圈】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1660

    文章

    22408

    瀏覽量

    636248
  • 硬件
    +關注

    關注

    11

    文章

    3594

    瀏覽量

    69011

原文標題:開發(fā)者分享 | 如何確定一個硬件加速應用

文章出處:【微信號:FPGA-EETrend,微信公眾號:FPGA開發(fā)圈】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    開發(fā)者正加速向Arm架構遷移

    人工智能 (AI) 正重塑數(shù)字格局,開發(fā)者也正面臨全新挑戰(zhàn):基礎設施不僅要具備強大算力,還需兼具可擴展性、成本效益和高能效等特征。當前,亞馬遜云科技、谷歌、微軟、Oracle Cloud
    的頭像 發(fā)表于 02-02 15:10 ?418次閱讀

    Vivado+Vitis將程序固化的Flash的操作流程

    ZYNQ 的程序固化是指將程序代碼永久存儲到非易失性存儲器中,使系統(tǒng)上電后能自動加載運行的過程。主要固化方式:QSPI Flash固化:常用方式,容量小,如啟動代碼、FPGA 配置。NAND Flash固化:適合大容量程序存儲,
    的頭像 發(fā)表于 01-20 16:17 ?358次閱讀
    Vivado+Vitis將<b class='flag-5'>程序</b>固化的Flash的操作流程

    使用三菱FX5U PLC的經(jīng)典小程序案例

    實際的PLC程序往往是某些典型小程序的擴展與疊加,因此掌握一些典型小程序對大型復雜程序的編寫非常有利。 鑒于此,本文將給出一些典型小程序,供
    的頭像 發(fā)表于 11-07 13:57 ?5663次閱讀
    使用三菱FX5U PLC的經(jīng)典小<b class='flag-5'>程序</b>案例

    上位機程序編寫

    本文將討論GPS/北斗定位模塊作為接收機,將接收到的定位信息通過串口發(fā)送給計算機,再由計算機接收并解碼獲取相關信息。 在定位模塊正確移植到DDR200T開發(fā)板的基礎上,首先編寫下位機程序。 下位
    發(fā)表于 10-28 06:40

    基于蜂鳥E203架構的指令集K擴展

    加速神經(jīng)網(wǎng)絡算法中的矩陣計算。 這些指令可以用于許多應用程序,例如數(shù)字信號處理、圖像處理、機器學習等。同時,這些指令也可以通過軟件編譯器進行自動向量化,從而提高程序性能。需要注意的是,添加K擴展指令集
    發(fā)表于 10-21 09:38

    STM32程序的燒錄方式

    電子發(fā)燒友網(wǎng)站提供《STM32程序的燒錄方式.pdf》資料免費下載
    發(fā)表于 08-28 16:03 ?8次下載

    科普 | 5G支持的WWC架構是個啥(1)?

    WWC標準貫穿了整個網(wǎng)絡建設的過程,從初始網(wǎng)絡架構設計到應用程序開發(fā)和運行,再到具體的需求實施和相關系統(tǒng)的集成。只有在遵循這些標準的前提下,才能確保網(wǎng)絡和應用程序的互操作性和互通性,
    的頭像 發(fā)表于 08-26 14:55 ?790次閱讀
    科普 | 5G支持的WWC<b class='flag-5'>架構</b>是個啥(1)?

    輕松配置小智AI語音開發(fā)板,安信可IOT小程序功能更新

    安信可科技:安信可發(fā)布的 AI 語音開發(fā)板,可以通過配套的小程序,完成網(wǎng)絡配置、音色選擇等多項配置,無需復雜代碼,輕松實現(xiàn)AI語音體驗。 用戶:COOL!怎么用的? 安信可科技:可以參考商用
    的頭像 發(fā)表于 08-19 17:46 ?1307次閱讀
    輕松配置小智AI語音<b class='flag-5'>開發(fā)</b>板,安信可IOT小<b class='flag-5'>程序</b>功能更新

    Andes晶心科技推出AutoOpTune v1.0提升開發(fā)效率

    Andes AutoOpTune v1.0 可自動探索并選擇優(yōu)化編譯程序選項,協(xié)助軟件開發(fā)人員在效能與程序代碼大小間取得最佳平衡,加速整體開發(fā)
    的頭像 發(fā)表于 08-18 10:23 ?1175次閱讀

    zephyr設備驅(qū)動程序模型

    ? ? 1:Zephyr 內(nèi)核支持多種設備驅(qū)動程序。驅(qū)動程序是否可用取決于board 和驅(qū)動程序。 Zephyr 設備模型為配置作為系統(tǒng)一部分的驅(qū)動程序提供了一致的設備模型。設備型號負
    的頭像 發(fā)表于 07-29 10:34 ?690次閱讀
    zephyr設備驅(qū)動<b class='flag-5'>程序</b>模型

    單片機怎么燒程序

    單片機燒程序是將編寫好的程序代碼寫入單片機內(nèi)部存儲單元,讓單片機按照預設邏輯工作的過程,是單片機應用開發(fā)中不可或缺的環(huán)節(jié)。無論是簡單的燈光控制程序,還是復雜的工業(yè)控制算法,都需要通過燒
    的頭像 發(fā)表于 07-23 11:47 ?1271次閱讀

    利用PLC調(diào)用ABB機器人程序號教程

    PP TO MAIN 程序是用來使機器人里的程序回到 MAIN 主程序的。
    的頭像 發(fā)表于 07-04 15:34 ?5707次閱讀
    利用PLC調(diào)用ABB機器人<b class='flag-5'>程序</b>號教程

    FANUC程序傳輸軟件的使用

    FANUC程序傳輸軟件的使用
    發(fā)表于 06-04 16:23 ?0次下載

    C語言的歷史及程序介紹

    電子發(fā)燒友網(wǎng)站提供《C語言的歷史及程序介紹.pdf》資料免費下載
    發(fā)表于 04-09 16:10 ?0次下載

    零基礎入門:如何在樹莓派上編寫和運行Python程序

    是一種非常有用的編程語言,其語法易于閱讀,允許程序員使用比匯編、C或Java等語言更少的代碼行。Python編程語言最初實際上是作為Linux的腳本語言而開發(fā)的。Py
    的頭像 發(fā)表于 03-25 09:27 ?2032次閱讀
    零基礎入門:如何在樹莓派上編寫和運行Python<b class='flag-5'>程序</b>?