91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何基于FPGA來構造高性能的圖像處理解決方案

LiveVideoStack ? 來源:LiveVideoStack ? 2019-11-19 16:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

FPGACPU相比進一步強化了算力,尤其適合各類并行化計算;而與GPU相比,其更細粒度及靈活的并行化及流水線控制天然的對復雜算法有更強的適應性,能夠充分發(fā)揮出算力優(yōu)勢,從而帶來計算效率的提升。針對數(shù)據(jù)中心算力不斷增強,算法不斷細分、復雜化的大背景下,F(xiàn)PGA具有更好的發(fā)展前景。

大家好,我是深維科技創(chuàng)始人/CEO 樊平,非常高興有這個機會跟大家分享和交流一下,如何基于FPGA來構造高性能的圖像處理解決方案。

1.解決方案提出的背景

隨著需求的快速增長,目前數(shù)據(jù)中心需要處理的圖像越來越多,處理內容包括圖像轉碼,像素級的操作、縮略圖處理以及各種圖像的智能分析,這些處理需求帶給數(shù)據(jù)中心的負擔日益加重。

2.FPGA圖像處理加速的潛力

2.1 深維科技在圖像方案上的性能數(shù)據(jù)

上圖是深維科技目前在圖像方案上已經(jīng)做到的性能數(shù)據(jù),第一是圖像的吞吐(每秒可以處理圖片的數(shù)量),目前CPU是根據(jù)E5的2650雙U服務器的性能去比較,加一張FPGA優(yōu)良版的加速卡就可以做到20倍的吞吐。在業(yè)務流程里對延時相對都很敏感,深維可以在提升吞吐的同時降低延遲達5倍,數(shù)據(jù)中心的成本因為服務器成本和所有功耗成本的降低,使得整體的TCO的降低可以達到5倍以上,也就是降低到原來的20%以下。同時可以改善功耗,提高10倍能效比。這些性能都是通過深維科技一款名叫ThunderImage的產(chǎn)品為大家提供的。

2.2 ThunderImage介紹

除了剛才提到的性能,深維科技對豐富的圖片的格式進行了支持,例如JPEG圖片編解碼的處理。隨著目前高清圖片內容越來越多,大家需要對圖片的尺寸/壓縮率做進一步提升,這其中比較流行的一種格式是Google從VP8編碼提取出來的一套標準WebP。深維科技目前很好支持了WebP的M4和M6兩種模式,另外深維科技也支持其他圖片格式和一些圖片的縮放算法,像Lanczos這類比較復雜的濾波算法都可以支持。

用戶在數(shù)據(jù)中心進行方案集成過程中,傳統(tǒng)數(shù)據(jù)中心的設計環(huán)境是軟件,把FPGA導入到數(shù)據(jù)中心之后,對方案的可用性有非常高的要求。深維科技把整個方案做了很好的封裝,以ImageMagick和OpenCV標準開源框架為接口進行替換,用戶只需要改動幾行代碼之后就可以對接口完成替換。這樣的使用模式完全類似于軟件的形態(tài),并且可以做到無縫兼容,包括一些像VIPS這類型的新框架深維科技都在逐步支持。

在業(yè)務部署的過程當中,深維科技從客戶得到很多關于細節(jié)的反饋,其中一個常見的問題是圖片在業(yè)務流程里部署時,客戶發(fā)現(xiàn)硬件的編解碼往往和參考軟件的結果存在不一致的現(xiàn)象,這是由于硬件做加速過程當中,為了適應加速的效果會對算法進行改動。

現(xiàn)在這款ThunderImage方案可以做到硬件編解碼和參考軟件結果完全一致的,每個比特的結果和CPU的流程跑出來的結果都可以做到嚴格一致,對實際業(yè)務的評估部署阻力會降低很多。ThunderImage方案可以做到每個像素都一樣,因此滿足了實際業(yè)務的場景需求。

深維科技的整個產(chǎn)品都可以部署在兩種平臺上,一種是云平臺,例如AWS和華為云,其他云平臺也會陸續(xù)發(fā)布出來。另一種是線下部署,深維科技在線下的本地部署支持了Linux的不同版本,可以比較方便匹配客戶不同的生產(chǎn)環(huán)境配置,服務器也可以支持英特爾AMD兩款CPU的型號。目前硬件平臺可以支持Alveo U200、Huawei FX300以及一些早期的型號,根據(jù)客戶的場景可以比較快地適配到相應的板卡。

3.常見的業(yè)務場景

涉及圖片部分的產(chǎn)品有幾個典型的應用場景,第一是縮略圖的場景,整個流程包括圖片的上傳、JPEG解碼、縮放、JPEG編碼和推送客戶端,很好的適配了以下幾種典型場景:第一是手機的云相冊,客戶上傳大量的圖片到云端,在不同的終端上瀏覽上傳的圖片,在瀏覽時不需要把原圖轉成各種尺寸的圖像推送到客戶端,只需要在線算出不同的尺寸推送到客戶端,在電商平臺和社交網(wǎng)絡上都大量涉及到這樣的應用場景。

第二個場景是WebP轉碼,把JPEG格式轉成WebP格式,達到節(jié)省30%以上的帶寬或者存儲的目標。另外深維也支持配合類似AI Inference的任務,在AI Inference Engine上輸入圖像尺寸大部分都是小圖,小圖通常是CPU端去配合生成(預處理),在Inference之后還要有一些存檔和編碼的需求。目前方案很好地適配了預處理和后處理的場景,可以實現(xiàn)整個AI Inference的全流程加速。

4.生產(chǎn)環(huán)境集成

4.1 與OBS進行集成

關于如何與生產(chǎn)環(huán)境集成,深維科技與OBS有一個比較完整的方案,首先上圖是一個典型的場景,需要有大量的JPEG圖像上傳到OBS,上傳完之后的OBS包含了大量用戶圖片。第二個階段是用戶會從安卓、蘋果、Windows等不同的終端去發(fā)起一個訪問,這個訪問會發(fā)向CDN,由于大部分情況下本地各種終端之間存在差異,訪問的命中率會比較低,CDN會檢查并返回給OBS進一步請求圖片。請求之后OBS會調用ThunderImage以最高的性能反饋給OBS相應尺寸的圖片,最后推送到客戶端,與OBS這種常見生長環(huán)境集成的模式還是比較清晰的。

4.2 核心性能指標分析

如圖是性能指標的分析,第一個是QPS(每秒可以處理圖片的張數(shù)),這個核心指標是在1K圖片縮放到240×180的時候可以達到4900張的峰值,4900是目前深維科技在同類產(chǎn)品里所能看到的最好效果。另一個數(shù)字是吞吐(每秒按照能處理輸入圖像流量的大?。掏驴梢赃_到1.8GB,相應此時CPU的流量是136MB,大概有15倍左右的加速。另外在延遲方面,在4K轉640×480圖片尺寸的時候,ThunderImage可以做到58毫秒,此時CPU延遲已經(jīng)達到1303毫秒,之間存在20倍左右的差距。在FPGA進行加速時,也就是將FPGA插到一個服務器里,服務器可以在性能有20倍的提升的同時做到CPU的利用率只有4%,純CPU版本是100%,因此整體加速效果是一致的,ThunderImage在各方面都有接近20倍的性能提升,有些方面性能提升還要更高一些。

4.3 通用計算方案

FPGA加速效果在圖片處理方案上是非常明顯的,在FPGA計算加速方向上已經(jīng)有各類方案,包括GPU、CPU、FPGA和ASIC。方案的比較在整體上有兩個重要的約束:效率(追求性能)和靈活性。FPGA相對于GPU的底層有更細粒度的并行化和流水線的控制,能夠做比特級、任意數(shù)據(jù)不對齊的操作,所有這些靈活性和底層更細粒度控制帶來了更好的計算效率,相對于整體就會帶來低延時、更高的能效和性能,所以深維非常看好FPGA將會成為下一代數(shù)據(jù)中心非常重要的通用的計算加速載體。

FPGA相對ASIC有一個很明顯的好處,ASIC在整個設計生產(chǎn)環(huán)節(jié)需要18個到24個月流片周期,而且對量也有一定的要求。FPGA有這些好處的同時也存在編程比較困難的致命問題,因此FPGA的設計開發(fā)有著很大的挑戰(zhàn),開發(fā)周期也會比較長。數(shù)據(jù)中心主要的用戶以軟件開發(fā)為主,軟件開發(fā)目前追求敏捷和快速迭代,這種長周期的開發(fā)形態(tài)非常制約業(yè)務部署。

4.4 軟、硬件開發(fā)方法區(qū)別

深維科技針對以上問題也提出了解決方案,如上圖所示,最左邊的是CPU的軟件開發(fā)流程:寫代碼、編譯,排除語法錯誤、運行,根據(jù)實際運行時的錯誤進行調試。

FPGA+CPU的開發(fā)流程傳統(tǒng)是基于硬件設計語言去做的,Verilog/VHDL設計流程涉及到的環(huán)節(jié)也需要寫代碼,對等同樣復雜度算法要增加10倍以上的代碼量,因此整個設計流程非常復雜。對比兩個系統(tǒng)開發(fā)流程就不難理解為什么基于硬件設計語言的FPGA開發(fā)過程往往需要半年到一年的周期,而不是軟件開發(fā)的周期只要數(shù)周到幾個月的時間。

賽靈思也注意到了設計流程的復雜度,于是在2012年收購了AutoESL公司,這家公司提供HLS高層次的設計方法,這個方法很好的支持了C和C++語言來編程FPGA,這種方式放到最右邊的框圖對流程進行相應的簡化,首先是系統(tǒng)層設計OpenCL,Kemel設計是使用是C和C++語言來寫代碼,但需要加一些標注。在軟件形式下去編譯仿真程序,排除語法錯誤、運行仿真程序,迭代多次后完成。在仿真環(huán)境上調好以后才需要上板生成FPGA程序,編譯成FPGA最后做一次,然后再上板去調。這個流程顯然已經(jīng)簡化很多,而且不需要頻繁在硬件層面去調試,大部分工作都是在軟件環(huán)節(jié)去做。

5. 深維科技的核心能力:快速開發(fā),全棧優(yōu)化

很多客戶都已經(jīng)試過了HLS這套開發(fā)方法,并對開發(fā)迅速這一特點有所體會,但是對于最后能不能達到預期的性能提升還存在一些問題。因為中間也經(jīng)過很多年的嘗試和成熟收斂,HLS已經(jīng)取得了比較好的效果,普遍的認識是HLS與RTL相比,后者在細節(jié)優(yōu)化上要更好一些。深維科技目前做了一些嘗試,之前提到能夠做到20倍以上的性能加速,應該是超過了一些RTL的產(chǎn)品性能。

深維科技在實現(xiàn)性能加速的過程中做了一些特殊的工作,關于OpenCL和HLS系統(tǒng)設計的范圍,首先在CPU有一個Opencl描述的調度,數(shù)據(jù)是通過主機的DDL和板上FPGA加速卡的DDL進行交換。FPGA有一些相應的kernel,kernel目前是用HLS和C++來描述的。這樣的任務有幾個需要解決的問題,第一個問題是如何做到快速開發(fā),如上文所述,使用C++和HLS就可以加快推出方案的速度。第二個問題是深維科技有面向行業(yè)的應用開發(fā)平臺,這樣可以簡化面向圖像處理應用領域時有通用的開發(fā)平臺,可以對很多類似的任務進行共享,例如調度、適配、框架這些事情。另外還有組件庫,深維科技把Codec和各種處理算法已經(jīng)變成了一個標準的組件,可以在平臺上對其進行非常方便的組合。

另外針對開發(fā)速度變快之后性能如何提升的問題,深維科技提出了全棧優(yōu)化的技術。全棧優(yōu)化是從算法層、架構層到底層的優(yōu)化技術,這也是由于HLS往往會遮蔽底層實現(xiàn)過程,當性能達不到要求時,深維科技把綜合布局、布線優(yōu)化方面,在底層展開進行進一步優(yōu)化,這主要依托于深維科技在EDA和FPGA芯片的設計經(jīng)驗,為了提升效率,深維科技也有相應的EDA的工具。綜上,我們比較了一下整體研發(fā)的效果,在FPGA加速里有三類設計方法,第一類是CPU軟件設計方法,它的特點是流程復雜度低,但是產(chǎn)品性能也低,項目周期很短。第二類是FPGA+CPU用傳統(tǒng)RTL的設計方法,它的特點是流程復雜度非常高,性能比較高,但是項目周期非常長。第三類是深維科技目前在實踐的方法FPGA+CPU(HLS+DPComp),這其中涉及到深維科技自己的工具和方法,設計方法的流程復雜度中等且內部可控。整個項目周期能夠達到與軟件開發(fā)類似的周期(15周到數(shù)月),并且可以達到非常高的產(chǎn)品性能。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1660

    文章

    22415

    瀏覽量

    636491
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135503
  • 圖像處理
    +關注

    關注

    29

    文章

    1342

    瀏覽量

    59560

原文標題:基于FPGA異構計算快速構建高性能圖像處理解決方案

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    深入剖析LMK01000家族:高性能時鐘解決方案的首選

    深入剖析LMK01000家族:高性能時鐘解決方案的首選 在電子設備的設計中,時鐘信號的精確分配和處理至關重要,它直接影響著整個系統(tǒng)的性能和穩(wěn)定性。德州儀器(TI)的LMK01000家族
    的頭像 發(fā)表于 02-09 17:05 ?309次閱讀

    MAX20458:汽車應用的高性能電源管理解決方案

    MAX20458:汽車應用的高性能電源管理解決方案 作為一名電子工程師,在設計汽車電子產(chǎn)品時,電源管理是一個至關重要的環(huán)節(jié)。今天要給大家介紹一款Analog Devices推出的高性能汽車級電源管理
    的頭像 發(fā)表于 02-06 10:20 ?152次閱讀

    大科學裝置信號采集處理解決方案

    Linux發(fā)行版和國產(chǎn)麒麟操作系統(tǒng)定制開發(fā)服務。 產(chǎn)品數(shù)據(jù)表 坤馳科技為大科學裝置提供專業(yè)的信號采集處理解決方案。我們的高速數(shù)字化儀具備1GS/s采樣率和14位分辨率,搭配白兔定時子卡供系統(tǒng)同步。該
    發(fā)表于 02-04 17:19

    FPGA 信號處理板卡設計原理圖:618-基于FMC+的XCVU3P高性能 PCIe 載板

    汽車駕駛員輔助, FPGA 信號處理, XCVU3P板卡, 雷達圖像處理, 衛(wèi)星通信系統(tǒng), 基帶通信接收
    的頭像 發(fā)表于 01-30 10:27 ?254次閱讀
    <b class='flag-5'>FPGA</b> 信號<b class='flag-5'>處理</b>板卡設計原理圖:618-基于FMC+的XCVU3P<b class='flag-5'>高性能</b> PCIe 載板

    國產(chǎn)高性能ONFI IP解決方案全解析

    1. 什么是ONFI IP?其在AI時代的作用是什么?ONFI (Open NAND Flash Interface) 是連接閃存控制器與NAND顆粒的關鍵高速接口協(xié)議。在AI和高性能計算(HPC
    發(fā)表于 01-13 16:15

    AD8122:高性能視頻傳輸?shù)睦硐?b class='flag-5'>解決方案

    AD8122:高性能視頻傳輸?shù)睦硐?b class='flag-5'>解決方案 在電子工程師的日常工作中,視頻信號的高質量傳輸一直是一個重要的挑戰(zhàn)。特別是在長距離傳輸中,信號的衰減和失真會嚴重影響視頻的質量。Analog
    的頭像 發(fā)表于 01-12 14:35 ?304次閱讀

    高性能單芯片NFC解決方案:PN7642的卓越魅力

    高性能單芯片NFC解決方案:PN7642的卓越魅力 在電子技術飛速發(fā)展的今天,對于高性能、集成化且安全的芯片解決方案的需求日益增長。PN7642作為一款創(chuàng)新的單芯片
    的頭像 發(fā)表于 12-24 17:05 ?384次閱讀

    AMD UltraScale架構:高性能FPGA與SoC的技術剖析

    AMD UltraScale架構:高性能FPGA與SoC的技術剖析 在當今的電子設計領域,高性能FPGA和MPSoC/RFSoC的需求日益增長。AMD的UltraScale架構憑借其創(chuàng)
    的頭像 發(fā)表于 12-15 14:35 ?570次閱讀

    【TES817】青翼凌云科技基于XCZU19EG FPGA高性能實時信號處理平臺

    板卡概述TES817是一款基于ZU19EGFPGA高性能實時信號處理平臺,該平臺采用1片高性能FPGA:XCZU19EG-2FFVC17
    的頭像 發(fā)表于 08-29 15:29 ?1470次閱讀
    【TES817】青翼凌云科技基于XCZU19EG <b class='flag-5'>FPGA</b>的<b class='flag-5'>高性能</b>實時信號<b class='flag-5'>處理</b>平臺

    SILEX希科高速圖像傳輸解決方案

    SILEX希科高速圖像傳輸解決方案
    的頭像 發(fā)表于 08-27 11:25 ?644次閱讀

    FPGA 加持,友思特圖像采集卡高速預處理助力視覺系統(tǒng)運行提速增效

    圖像處理圖像處理關鍵環(huán)節(jié),可優(yōu)化數(shù)據(jù)傳輸、減輕主機負擔,其算法可在FPGA等硬件上執(zhí)行。友思特FPG
    的頭像 發(fā)表于 08-13 17:41 ?1120次閱讀
    <b class='flag-5'>FPGA</b> 加持,友思特<b class='flag-5'>圖像</b>采集卡高速預<b class='flag-5'>處理</b>助力視覺系統(tǒng)運行提速增效

    快手上線鴻蒙應用高性能解決方案:數(shù)據(jù)反序列化性能提升90%

    近日,快手在Gitee平臺上線了鴻蒙應用性能優(yōu)化解決方案“QuickTransformer”,該方案針對鴻蒙應用開發(fā)中廣泛使用的三方庫“class-transformer”進行了深度優(yōu)化,有效提升
    發(fā)表于 05-15 10:01

    瑞蘇盈科FPGA CoaXPress解決方案,重構地面遠程視頻編碼器性能邊界

    (現(xiàn)場可編程門陣列)憑借其獨特的硬件可編程特性和強大的并行處理能力,為地面遠程視頻編碼器帶來了新的突破,成為構建可靠、高性能遠程監(jiān)控系統(tǒng)的核心技術方案。解決方案
    的頭像 發(fā)表于 04-24 14:53 ?874次閱讀
    瑞蘇盈科<b class='flag-5'>FPGA</b> CoaXPress<b class='flag-5'>解決方案</b>,重構地面遠程視頻編碼器<b class='flag-5'>性能</b>邊界

    一款高性能Wi-Fi+BLE無線模組產(chǎn)品

    超低功耗、超高性能,Wi-Fi 6雙頻物聯(lián)網(wǎng)模塊;多核處理解決方案,支持BLE+Wi-Fi雙透傳
    發(fā)表于 04-21 13:50

    中科億海微SoM模組——AI圖像理解決方案

    精準、高效的圖像分析支持。極大提高了醫(yī)療影像、自動駕駛、智能安防、農(nóng)業(yè)智能、無人機、人形機器人、物流管理等領域圖像處理的效率和質量。本文介紹的中科億海微基于FPGA
    的頭像 發(fā)表于 03-27 13:48 ?846次閱讀
    中科億海微SoM模組——AI<b class='flag-5'>圖像</b>推<b class='flag-5'>理解決方案</b>