91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

FPGA執(zhí)行計算密集型任務性能表現(xiàn)及優(yōu)勢有哪些

FPGA研究院 ? 來源:FPGA研究院 ? 作者:FPGA研究院 ? 2022-11-10 09:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

FPGA可用于處理多元計算密集型任務,依托流水線并行結構體系,F(xiàn)PGA相對GPUCPU在計算結果返回時延方面具備技術優(yōu)勢。

計算密集型任務:矩陣運算、機器視覺、圖像處理、搜索引擎排序、非對稱加密等類型的運算屬于計算密集型任務。該類運算任務可由CPU卸載至FPGA執(zhí)行。

FPGA執(zhí)行計算密集型任務性能表現(xiàn):

? 計算性能相對CPU:如Stratix系列FPGA進行整數(shù)乘法運算,其性能與20核CPU相當,進行浮點乘法運算,其性能與8核CPU相當。

? 計算性能相對GPU:FPGA進行整數(shù)乘法、浮點乘法運算,性能相對GPU存在數(shù)量級差距,可通過配置乘法器、浮點運算部件接近GPU計算性能。

FPGA執(zhí)行計算密集型任務核心優(yōu)勢:搜索引擎排序、圖像處理等任務對結果返回時限要求較為嚴格,需降低計算步驟時延。傳統(tǒng)GPU加速方案下數(shù)據(jù)包規(guī)模較大,時延可達毫秒級別。FPGA加速方案下,PCIe時延可降至微秒級別。遠期技術推動下,CPU與FPGA數(shù)據(jù)傳輸時延可降至100納秒以下。

FPGA可針對數(shù)據(jù)包步驟數(shù)量搭建同等數(shù)量流水線(流水線并行結構),數(shù)據(jù)包經多個流水線處理后可即時輸出。GPU數(shù)據(jù)并行模式依托不同數(shù)據(jù)單元處理不同數(shù)據(jù)包,數(shù)據(jù)單元需一致輸入、輸出。針對流式計算任務,F(xiàn)PGA流水線并行結構在延遲方面具備天然優(yōu)勢。

aa727d8e-608c-11ed-8abf-dac502259ad0.png

FPGA用于處理通信密集型任務不受網(wǎng)卡限制,在數(shù)據(jù)包吞吐量、時延方面表現(xiàn)優(yōu)于CPU方案,時延穩(wěn)定性較強。

通信密集型任務:對稱加密、防火墻、網(wǎng)絡虛擬化等運算屬于通信密集型計算任務,通信密集數(shù)據(jù)處理相對計算密集數(shù)據(jù)處理復雜度較低,易受通信硬件設備限制。

FPGA執(zhí)行通信密集型任務優(yōu)勢:

① 吞吐量優(yōu)勢:CPU方案處理通信密集任務需通過網(wǎng)卡接收數(shù)據(jù),易受網(wǎng)卡性能限制(線速處理64字節(jié)數(shù)據(jù)包網(wǎng)卡有限,CPU及主板PCIe網(wǎng)卡插槽數(shù)量有限)。GPU方案(高計算性能)處理通信密集任務數(shù)據(jù)包缺乏網(wǎng)口,需依靠網(wǎng)卡收集數(shù)據(jù)包,數(shù)據(jù)吞吐量受CPU及網(wǎng)卡限制,時延較長。FPGA可接入40Gbps、100Gbps網(wǎng)線,并以線速處理各類數(shù)據(jù)包,可降低網(wǎng)卡、交換機配置成本。

② 時延優(yōu)勢:CPU方案通過網(wǎng)卡收集數(shù)據(jù)包,并將計算結果發(fā)送至網(wǎng)卡。受網(wǎng)卡性能限制,DPDK數(shù)據(jù)包處理框架下,CPU處理通信密集任務時延近5微秒,且CPU時延穩(wěn)定性較弱,高負載情況下時延或超過幾十微秒,造成任務調度不確定性。FPGA無需指令,可保證穩(wěn)定、極低時延,F(xiàn)PGA協(xié)同CPU異構模式可拓展FPGA方案在復雜端設備的應用。

aa7a3826-608c-11ed-8abf-dac502259ad0.png

FPGA部署包括集群式、分布式等,逐漸從中心化過渡至分布式,不同部署方式下,服務器溝通效率、故障傳導效應表現(xiàn)各異。

FPGA嵌入功耗負擔:FPGA嵌入對服務器整體功耗影響較小,以Catapult聯(lián)手微軟開展的FPGA加速機器翻譯項目為例,加速模塊整體總計算能力達到103Tops/W,與10萬塊GPU計算能力相當。相對而言,嵌入單塊FPGA導致服務器整體功耗增加約30W。

FPGA部署方式特點及限制:

① 集群部署特點及限制:FPGA芯片構成專用集群,形成FPGA加速卡構成的超級計算器(如Virtex系列早期實驗板于同一硅片部署6塊FPGA,單位服務器搭載4塊實驗板)。

? 專用集群模式無法在不同機器FPGA之間實現(xiàn)通信;

? 數(shù)據(jù)中心其他機器需集中發(fā)送任務至FPGA集群,易造成網(wǎng)絡延遲;

? 單點故障導致數(shù)據(jù)中心整體加速能力受限

② 網(wǎng)線連接分布部署:為保證數(shù)據(jù)中心服務器同構性(ASIC解決方案亦無法滿足),該部署方案于不同服務器嵌入FPGA,并通過專用網(wǎng)絡連接,可解決單點故障傳導、網(wǎng)絡延遲等問題。

?類同于集群部署模式,該模式不支持不同機器FPGA間通信;

?搭載FPGA芯片的服務器具備高度定制化特點,運維成本較高

③ 共享服務器網(wǎng)絡部署:該部署模式下,F(xiàn)PGA置于網(wǎng)卡、交換機間,可大幅提高加速網(wǎng)絡功能并實現(xiàn)存儲虛擬化。FPGA針對每臺虛擬機設置虛擬網(wǎng)卡,虛擬交換機數(shù)據(jù)平面功能移動至FPGA內,無需CPU或物理網(wǎng)卡參與網(wǎng)絡數(shù)據(jù)包收發(fā)過程。該方案顯著提升虛擬機網(wǎng)絡性能(25Gbps),同時可降低數(shù)據(jù)傳輸網(wǎng)絡延遲(10倍)。

aa84c6a6-608c-11ed-8abf-dac502259ad0.png

分享服務器網(wǎng)絡部署模式下,F(xiàn)PGA加速器有助于降低數(shù)據(jù)傳輸時延,維護數(shù)據(jù)中心時延穩(wěn)定,顯著提升虛擬機網(wǎng)絡性能。

分享服務器網(wǎng)絡部署模式下FPGA加速Bing搜索排序:Bing搜索排序于該模式下采用10Gbps專用網(wǎng)線通信,每組網(wǎng)絡由8個FPGA組成。其中,部分負責提取信號特征,部分負責計算特征表達式,部分負責計算文檔得分,最終形成機器人即服務(RaaS)平臺。FPGA加速方案下,Bing搜索時延大幅降低,延遲穩(wěn)定性呈現(xiàn)正態(tài)分布。該部署模式下,遠程FPGA通信延遲相對搜索延遲可忽略。

aa8c8562-608c-11ed-8abf-dac502259ad0.png

Azure服務器部署FPGA模式:Azure針對網(wǎng)絡及存儲虛擬化成本較高等問題采取FPGA分享服務器網(wǎng)絡部署模式。隨網(wǎng)絡計算速度達到40Gbps,網(wǎng)絡及存儲虛擬化CPU成本激增(單位CPU核僅可處理100Mbps吞吐量)。通過在網(wǎng)卡及交換機間部署FPGA,網(wǎng)絡連接擴展至整個數(shù)據(jù)中心。通過輕量級傳輸層,同一服務器機架時延可控制在3微秒內,觸達同數(shù)據(jù)中心全部FPGA機架時延可控制在20微秒內。

依托高帶寬、低時延優(yōu)勢,F(xiàn)PGA可組成網(wǎng)絡交換層與服務器軟件之間的數(shù)據(jù)中心加速層,并隨分布式加速器規(guī)模擴大實現(xiàn)性能超線性提升。

數(shù)據(jù)中心加速層:FPGA嵌入數(shù)據(jù)中心加速平面,位于網(wǎng)絡交換層(支架層、第一層、第二層)及傳統(tǒng)服務器軟件(CPU層面運行軟件)之間。

加速層優(yōu)勢:

? FPGA加速層負責為每臺服務器(提供云服務)提供網(wǎng)絡加速、存儲虛擬化加速支撐,加速層剩余資源可用于深度神經網(wǎng)絡(DNN)等計算任務。

? 隨分布式網(wǎng)絡模式下FPGA加速器規(guī)模擴大,虛擬網(wǎng)絡性能提升呈現(xiàn)超線性特征。

加速層性能提升原理:使用單塊FPGA時,單片硅片內存不足以支撐全模型計算任務,需持續(xù)訪問DRAM以獲取權重,受制于DRAM性能。加速層通過數(shù)量眾多的FPGA支撐虛擬網(wǎng)絡模型單層或單層部分計算任務。該模式下,硅片內存完整加載模型權重,可突破DRAM性能瓶頸,F(xiàn)PGA計算性能得到充分發(fā)揮。加速層需避免計算任務過度拆分而導致計算、通信失衡。

aa9212e8-608c-11ed-8abf-dac502259ad0.png

嵌入式eFPGA技術在性能、成本、功耗、盈利能力等方面優(yōu)于傳統(tǒng)FPGA嵌入方案,可針對不同應用場景、不同細分市場需求提供靈活解決方案.

eFPGA技術驅動因素:設計復雜度提升伴隨設備成本下降的經濟趨勢促發(fā)市場對eFPGA技術需求。

器件設計復雜度提升:SoC設計實現(xiàn)過程相關軟件工具趨于復雜(如Imagination Technologies為滿足客戶完整開發(fā)解決方案需求而提供PowerVR圖形界面、Eclipse整合開發(fā)環(huán)境),工程耗時增加(編譯時間、綜合時間、映射時間,F(xiàn)PGA規(guī)模越大,編譯時間越長)、制模成本提高(FPGA芯片成本為同規(guī)格ASIC芯片成本100倍)。

設備單位功能成本持續(xù)下降:20世紀末期,F(xiàn)PGA平均售價較高(超1,000元),傳統(tǒng)模式下,F(xiàn)PGA與ASIC集成設計導致ASIC芯片管芯面積、尺寸增大,復雜度提升,早期混合設備成本較高。21世紀,相對批量生產的混合設備,F(xiàn)PGA更多應用于原型設計、預生產設計,成本相對傳統(tǒng)集成持續(xù)下降(最低約100元),應用靈活。eFPGA技術優(yōu)勢:

更優(yōu)質:eFPGA IP核及其他功能模塊的SoC設計相對傳統(tǒng)FPGA嵌入ASIC解決方案,在功耗、性能、體積、成本等方面表現(xiàn)更優(yōu)。

更方便:下游應用市場需求更迭速度快,eFPGA可重新編程特性有助于設計工程師更新SoC,產品可更長久占有市場,利潤、收入、盈利能力同時大幅提升。eFPGA方案下SoC可實現(xiàn)高效運行,一方面迅速更新升級以支持新接口標準,另一方面可快速接入新功能以應對細分化市場需求。

更節(jié)能:SoC設計嵌入eFPGA技術可在提高總性能的同時降低總功耗。利用eFPGA技術可重新編程特性,工程師可基于硬件,針對特定問題對解決方案進行重新配置,進而提高設計性能、降低功耗。

aa9c5104-608c-11ed-8abf-dac502259ad0.png

FPGA技術無需依靠指令、無需共享內存,在云計算網(wǎng)絡互連系統(tǒng)中提供低延遲流式通信功能,可廣泛滿足虛擬機之間、進程之間加速需求.

FPGA云計算任務執(zhí)行流程:主流數(shù)據(jù)中心以FPGA為計算密集型任務加速卡,賽靈思及阿爾特拉推出基于OpenCL的高層次編程模型,模型依托CPU觸達DRAM,向FPGA傳輸任務,通知執(zhí)行,F(xiàn)PGA完成計算并將執(zhí)行結果傳輸至DRAM,最終傳輸至CPU。

FPGA云計算性能升級空間:受限于工程實現(xiàn)能力,當前數(shù)據(jù)中心FPGA與CPU之間通信多以DRAM為中介,通過燒寫DRAM、啟動kernel、讀取DRAM的流程完成通信(FPGADRAM相對CPU DRAM數(shù)據(jù)傳輸速度較慢),時延近2毫秒(OpenCL、多個kernel間共享內存)。CPU與FPGA間通信時延存在升級空間,可借助PCIe DMA實現(xiàn)高效直接通信,時延最低可降至1微秒。

FPGA云計算通信調度新型模式:新通信模式下,F(xiàn)PGA與CPU無需依托共享內存結構,可通過管道實現(xiàn)智行單元、主機軟件之間的高速通信。云計算數(shù)據(jù)中心任務較為單一,重復性強,主要包括虛擬平臺網(wǎng)絡構建和存儲(通信任務)以及機器學習、對稱及非對稱加密解密(計算任務),算法較為復雜。新型調度模式下,CPU計算任務趨于碎片化,遠期云平臺計算中心或以FPGA為主,并通過FPGA將復雜計算任務卸載至CPU(區(qū)別于傳統(tǒng)模式下CPU卸載任務至FPGA的模式)。

aaae1010-608c-11ed-8abf-dac502259ad0.png

全球FPGA市場由四大巨頭Xilinx賽靈思,Intel英特爾(收購阿爾特拉)、Lattice萊迪思、Microsemi美高森美壟斷,四大廠商壟斷9,000余項專利技術,把握行業(yè)“制空權”。

FPGA芯片行業(yè)形成以來,全球范圍約有超70家企業(yè)參與競爭,新創(chuàng)企業(yè)層出不窮(如Achronix Semiconductor、MathStar等)。產品創(chuàng)新為行業(yè)發(fā)展提供動能,除傳統(tǒng)可編程邏輯裝置(純數(shù)字邏輯性質),新型可編程邏輯裝置(混訊性質、模擬性質)創(chuàng)新速度加快,具體如Cypress Semiconductor 研 發(fā) 具 有 可 組 態(tài) 性 混 訊 電 路 PSoC(Programmable System on Chip),再如Actel推出Fusion(可程序化混訊芯片)。此外,部分新創(chuàng)企業(yè)推出現(xiàn)場可編程模擬數(shù)組FPAA(Field Programmable Analog Array)等。

隨智能化市場需求變化演進,高度定制化芯片(SoC ASIC)因非重復投資規(guī)模大、研發(fā)周期長等特點導致市場風險劇增。相對而言,F(xiàn)PGA在并行計算任務領域具備優(yōu)勢,在高性能、多通道領域可以代替部分ASIC。人工智能領域多通道計算任務需求推動FPGA技術向主流演進。

基于FPGA芯片在批量較?。髌?萬片為界限)、多通道計算專用設備(雷達、航天設備)領域的優(yōu)勢,下游部分應用市場以FPGA取代ASIC應用方案。

中國FPGA芯片研發(fā)企業(yè)可以紫光同創(chuàng)、國微電子、成都華微電子、安路科技、智多晶、高云半導體、上海復旦微電子和京微齊力為例。從產品角度分析,中國FPGA硬件性能指標相較賽靈思、Intel等差距較大。紫光同創(chuàng)是當前中國市場唯一具備自主產權千萬門級高性能FPGA研發(fā)制造能力的企業(yè)。上海復旦微電子于2018年5月推出自主知識產權億門級FPGA產品。中國FPGA企業(yè)緊跟大廠步伐,布局人工智能、自動駕駛等市場,打造高、中、低端完整產品線。

中國FPGA企業(yè)競爭突破口現(xiàn)階段中國FPGA廠商芯片設計軟件、應用軟件不統(tǒng)一,易在客戶端造成資源浪費,頭部廠商可帶頭集中產業(yè)鏈資源,提高行業(yè)整體競爭力。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1660

    文章

    22408

    瀏覽量

    636231
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11277

    瀏覽量

    224949
  • 機器視覺
    +關注

    關注

    165

    文章

    4797

    瀏覽量

    126042

原文標題:收藏:FPGA知識及芯片技術

文章出處:【微信號:FPGA研究院,微信公眾號:FPGA研究院】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Altera全新推出MAX 10 FPGA封裝新選擇

    Altera 全新推出 MAX 10 FPGA 封裝新選擇,采用可變間距球柵陣列 (VPBGA) 技術并已開始批量出貨,可為空間受限及 I/O 密集型應用的設計人員帶來關鍵技術優(yōu)勢
    的頭像 發(fā)表于 11-10 16:38 ?1841次閱讀
    Altera全新推出MAX 10 <b class='flag-5'>FPGA</b>封裝新選擇

    英飛凌推出專為高功率與計算密集型應用而設計的400V和440V MOSFET

    。新的CoolSiC? MOSFET具有更優(yōu)的熱性能、系統(tǒng)效率和功率密度。其專為滿足高功率與計算密集型應用需求而設計,涵蓋了AI服務器電源、光伏逆變器、不
    的頭像 發(fā)表于 10-31 11:00 ?418次閱讀

    【產品介紹】Altair HPCWorks高性能計算管理平臺(HPC平臺)

    AltairHPCWorksAltair高性能計算平臺最大限度地利用復雜的計算資源,并簡化計算密集型任務
    的頭像 發(fā)表于 09-18 17:56 ?844次閱讀
    【產品介紹】Altair HPCWorks高<b class='flag-5'>性能</b><b class='flag-5'>計算</b>管理平臺(HPC平臺)

    【上海晶珩睿莓1開發(fā)板試用體驗】4、Coremark性能測試

    ×Cortex?A55, ARMv8-A, 64-bit, 2.0GHz)的睿莓1 板的 CoreMark 表現(xiàn)。 CoreMark 是什么 目的:測量 CPU 在常見整型/控制密集型任務上的原始
    發(fā)表于 08-18 22:18

    I/O密集型任務開發(fā)指導

    使用異步并發(fā)可以解決單次I/O任務阻塞的問題,但是如果遇到I/O密集型任務,同樣會阻塞線程中其它任務執(zhí)行,這時需要使用多線程并發(fā)能力來進行
    發(fā)表于 06-19 07:19

    CPU密集型任務開發(fā)指導

    CPU密集型任務是指需要占用系統(tǒng)資源處理大量計算能力的任務,需要長時間運行,這段時間會阻塞線程其它事件的處理,不適宜放在主線程進行。例如圖像處理、視頻編碼、數(shù)據(jù)分析等。 基于多線程并發(fā)
    發(fā)表于 06-19 06:05

    TaskPool和Worker的對比分析

    askPool(任務池)和Worker的作用是為應用程序提供一個多線程的運行環(huán)境,用于處理耗時的計算任務或其他密集型任務。可以有效地避免這
    發(fā)表于 06-18 06:43

    上海貝嶺推出全新DDR5 SPD芯片BL5118

    隨著計算密集型任務的日益增長,DDR4內存的性能瓶頸已逐步顯現(xiàn)。DDR5的出現(xiàn)雖解燃眉之急,但真正推動內存發(fā)揮極致性能的背后“功臣”——正是
    的頭像 發(fā)表于 06-11 10:07 ?2300次閱讀
    上海貝嶺推出全新DDR5 SPD芯片BL5118

    借助NVIDIA技術實現(xiàn)機器人裝配和接觸密集型操作

    本期 NVIDIA 機器人研究與開發(fā)摘要 (R2D2) 將探討 NVIDIA 研究中心針對機器人裝配任務的多種接觸密集型操作工作流,以及它們如何解決傳統(tǒng)固定自動化在魯棒性、適應性和可擴展性等方面的關鍵挑戰(zhàn)。
    的頭像 發(fā)表于 06-04 13:51 ?805次閱讀
    借助NVIDIA技術實現(xiàn)機器人裝配和接觸<b class='flag-5'>密集型</b>操作

    RDMA簡介1之RDMA開發(fā)必要性

    為了滿足大批量數(shù)據(jù)的采集、存儲與傳輸需求,越來越多的數(shù)據(jù)密集型應用如機器學習、雷達、金融風控、航空航天等選擇使用現(xiàn)場可編程邏輯門陣列作為數(shù)據(jù)采集前端硬件來實現(xiàn)高性能的數(shù)據(jù)采集系統(tǒng)。FPGA憑借其高
    發(fā)表于 06-03 14:38

    睿擎多核 SMP 開發(fā):極簡開發(fā),超強性能——睿擎派開發(fā)板0元試用

    在工業(yè)控制、邊緣計算等場景中,MPU多核架構的性能潛力常因開發(fā)復雜度難以釋放。實時任務(如運動控制、高速采集)與計算密集型
    的頭像 發(fā)表于 05-29 17:04 ?1450次閱讀
    睿擎多核 SMP 開發(fā):極簡開發(fā),超強<b class='flag-5'>性能</b>——睿擎派開發(fā)板0元試用

    Altera Agilex 5 D系列FPGA性能和能效

    隨著邊緣計算領域的迅速發(fā)展,許多應用日益依賴于內存技術來實現(xiàn)更高的性能或每瓦性能。Altera 的 Agilex 5 D 系列 FPGA 可提供一系列經過精心設計的內存選擇,助力用戶輕
    的頭像 發(fā)表于 03-27 13:36 ?1356次閱讀

    告別性能瓶頸:使用 Google Coral TPU 為樹莓派注入強大AI計算力!

    使用機器學習的應用程序通常需要高計算能力。這些計算通常發(fā)生在顯卡的GPU上。RaspberryPi并不專門設計用于運行計算密集型應用程序。但GoogleCoralUSB加速器能在此提供
    的頭像 發(fā)表于 03-25 09:30 ?2056次閱讀
    告別<b class='flag-5'>性能</b>瓶頸:使用 Google Coral TPU 為樹莓派注入強大AI<b class='flag-5'>計算</b>力!

    LPDDR5X:面向高性能與能效的增強移動內存

    的6400 Mbps提升約33%,可處理8K視頻流、實時AI計算密集型任務。三星近期推出的LPDDR5X-Ultra-Pro甚至將速率提升至12700 MT/s(
    的頭像 發(fā)表于 03-17 10:16 ?1w次閱讀

    請問如何在Python中實現(xiàn)多線程與多進程的協(xié)作?

    大家好!我最近在開發(fā)一個Python項目時,需要同時處理多個任務,且每個任務需要不同的計算資源。我想通過多線程和多進程的組合來實現(xiàn)并發(fā),但遇到了一些問題。 具體來說,我兩個
    發(fā)表于 03-11 06:57