91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

FPGA與GPU計算存儲加速對比

劉杰 ? 來源:zrl12123456 ? 作者:zrl12123456 ? 2022-08-02 08:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

硬件制造商正在將加速方法應用于計算存儲,這是專門設計用于包含內嵌計算元素的存儲。這種方法已經被證明可以為分析和 AI 應用提供優(yōu)異的性能。使用或者不使用機器學習輔助的分析以及驗證,都可以借助計算存儲器件進行加速。這些器件提供了一個關鍵的優(yōu)勢,使得成本高昂的計算被卸載到存儲器件上,而不必在服務器 CPU 上完成。與標準的存儲/CPU 方法相比,通過計算存儲獲得的優(yōu)勢包括:

1. 借助應用專用編程定制可編程硬件,獲得更高性能

2. 將計算任務從服務器卸載到存儲器件,釋放 CPU 資源

3. 數據與計算共址,降低數據傳輸需求

這種新穎的方法前景光明。不過,您應根據具體用例評估這種方法,考量性能、成本、功耗和易用性。性價比和單位功耗性能在選擇加速硬件評估時,占據主要比率。在本文中,我們將研討單位功耗性能。

計算存儲功耗比較

在這個場景中,我們將比較以 CSV 數據讀取用例為主的三種工具:英偉達 GPUDirect 存儲 和RAPIDS存儲,以及基于賽靈思技術的三星 SmartSSD 存儲。CSV 讀取在計算密集型流水線中起著重要的作用(參見圖 1)。

在下文中,我們將性能定義成 CSV 的處理速率,或處理“帶寬”。我們先快速回顧一下三種系統(tǒng)的運行方式。

英偉達 GPUDirect 存儲

端到端滿足分析和 AI 需求

將 GPU 用作計算單元,緊貼基于 NVMe 的存儲器件布局 (GPUDirect)

使用 CUDA 進行編程 (RAPIDS)

英偉達用其 CSV 數據讀取技術衡量相對于標準 SSD 的性能提升。結果如圖 1 所示。使用 1 到 8 個加速器時,對應的吞吐量是 4 到 23GB/s。

三星 SmartSSD 驅動器

將賽靈思 FPGA 用作計算單元

與存儲邏輯內嵌駐留在同一個內部 PCIe 互聯(lián)上

通過編程在存儲平臺上開展運算

賽靈思數據分析解決方案合作伙伴 Bigstream 與三星合作,為 Apache Spark 設計加速器,包括用于 CSV 和 Parquet 處理的 IP。SmartSSD 的測試使用單機模式的 CSV 解析引擎,以便開展比較。結果如圖 2 所示,使用 1 到 12 個加速器時,對應的吞吐量是 4 到 23GB/s,同時也給出英偉達的結果(使用 1 到 8 個加速器)。請注意,本討論中的所有結果都按 x 軸上的加速器數量進行參數化。

這些結果令人振奮,但在選擇您的解決方案時,請務必將功耗情況納入考慮。

圖 2:SmartSSD 驅動器的 CSV 解析性能結果

單位功耗性能比較

圖 3 顯示了將功耗考慮在內后的分析結果。它們代表單位功耗達到的性能水平,根據上述討論中引用的相關材料,給出了以下假設:

Tesla V100 GPU:最大功耗 200 瓦

SmartSSD 驅動器 FPGA:最大功耗 30 瓦

圖 3:CSV 解析的每瓦功耗帶寬比較

在這個場景下,計算表明,在全部使用 8 個加速器的情況下,SmartSSD 的單位功耗性能比 GPUDirect Storage 高 25 倍。

最終思考

計算存儲的優(yōu)勢在于能增強數據分析和 AI 應用的性能。然而,要讓這種方法具備可實際部署的能力和實用性,就必須在評估時將功耗納入考慮。

針對用于 CSV 數據解析的兩種不同的計算存儲方法,我們已經提出按功耗參數化的吞吐量性能曲線。結果顯示,在使用相似數量的加速器進行比較時,SmartSSD 驅動器的單位功耗性能優(yōu)于 GPUDirect存儲方法。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1660

    文章

    22408

    瀏覽量

    636240
  • 驅動器
    +關注

    關注

    54

    文章

    9082

    瀏覽量

    155494
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135431
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    FPGA硬件加速卡設計原理圖:1-基于Xilinx XCKU115的半高PCIe x8 硬件加速卡 PCIe半高 XCKU115-3-FLVF1924-E芯片

    FPGA硬件加速, PCIe半高卡, XCKU115, 光纖采集卡, 信號計算板, 硬件加速
    的頭像 發(fā)表于 02-12 09:52 ?385次閱讀
    <b class='flag-5'>FPGA</b>硬件<b class='flag-5'>加速</b>卡設計原理圖:1-基于Xilinx XCKU115的半高PCIe x8 硬件<b class='flag-5'>加速</b>卡 PCIe半高 XCKU115-3-FLVF1924-E芯片

    FPGA+GPU異構混合部署方案設計

    為滿足對 “納秒級實時響應” 與 “復雜數據深度運算” 的雙重需求,“FPGA+GPU”異構混合部署方案通過硬件功能精準拆分與高速協(xié)同,突破單一硬件的性能瓶頸 ——FPGA聚焦低延遲實時交易鏈路,GPU承接高復雜度數據處理任務,
    的頭像 發(fā)表于 01-13 15:20 ?347次閱讀

    RSoft GPU加速技術重塑光子元件設計效率革命

    設計效率。為了解決這個問題,RSoft 光子器件工具的 FullWAVE FDTD 模組中引入 GPU 加速,通過 NVIDIA GPU 的平行運算能力,使得模擬速度相比 CPU 計算
    的頭像 發(fā)表于 01-12 14:09 ?254次閱讀
    RSoft <b class='flag-5'>GPU</b><b class='flag-5'>加速</b>技術重塑光子元件設計效率革命

    沐曦股份GPU加速技術助力藥物研發(fā)降本增效

    沐曦股份科學計算團隊近期取得突破性進展,成功將主流分子動力學模擬引擎GROMACS中的FEP計算全流程部署于GPU執(zhí)行,并實現(xiàn)2.5倍性能提升,相關成果獲得GROMACS官方團隊的高度認可,該
    的頭像 發(fā)表于 12-02 15:58 ?739次閱讀

    嵌入式和FPGA的區(qū)別

    、光傳輸) 高性能計算(算法加速) 原型驗證(ASIC前期驗證) 軍事航天(抗輻射、高可靠需求) 未來發(fā)展趨勢 隨著技術的融合,我們看到嵌入式處理器與FPGA結合的SoC器件(如Xilinx
    發(fā)表于 11-19 06:55

    FPGAGPU加速的視覺SLAM系統(tǒng)中特征檢測器研究

    (Nvidia Jetson Orin與AMD Versal)上最佳GPU加速方案(FAST、Harris、SuperPoint)與對應FPGA加速方案的性能,得出全新結論。
    的頭像 發(fā)表于 10-31 09:30 ?660次閱讀
    <b class='flag-5'>FPGA</b>和<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>的視覺SLAM系統(tǒng)中特征檢測器研究

    PCIe協(xié)議分析儀能測試哪些設備?

    ) 測試場景:驗證CPU與PCIe設備(如GPUFPGA)之間的數據流,優(yōu)化任務調度和數據流。 應用價值:在異構計算環(huán)境中平衡計算資源,減少數據傳輸瓶頸。 二、
    發(fā)表于 07-25 14:09

    基于FPGA的壓縮算法加速實現(xiàn)

    本設計中,計劃實現(xiàn)對文件的壓縮及解壓,同時優(yōu)化壓縮中所涉及的信號處理和計算密集型功能,實現(xiàn)對其的加速處理。本設計的最終目標是證明在充分并行化的硬件體系結構 FPGA 上實現(xiàn)該算法時,可以大大提高該算
    的頭像 發(fā)表于 07-10 11:09 ?2389次閱讀
    基于<b class='flag-5'>FPGA</b>的壓縮算法<b class='flag-5'>加速</b>實現(xiàn)

    AMD FPGA異步模式與同步模式的對比

    本文講述了AMD UltraScale /UltraScale+ FPGA 原生模式下,異步模式與同步模式的對比及其對時鐘設置的影響。
    的頭像 發(fā)表于 07-07 13:47 ?1635次閱讀

    硅谷GPU云服務器是什么意思?使用指南詳解

    硅谷GPU云服務器本質上是一種IaaS(基礎設施即服務)產品,它將物理服務器上的GPU資源通過虛擬化技術分割成可彈性調配的云服務。與普通CPU云服務器相比,GPU服務器最大的特點是搭載了NVIDIATesla、AMDInstin
    的頭像 發(fā)表于 06-16 09:41 ?591次閱讀

    Matlab與MWORKS軟件計算精度對比

    MWORKS軟件作為同元開發(fā)的Matlab替代產品,目前正在軍工企業(yè)及部分院校開始試用。結合去年開發(fā)算例,對兩個軟件在計算精度方面進行了對比,請各位大神指導。 以《軌道交通系統(tǒng)動力學與Matlab
    發(fā)表于 06-07 16:57

    智算加速卡是什么東西?它真能在AI戰(zhàn)場上干掉GPU和TPU!

    隨著AI技術火得一塌糊涂,大家都在談"大模型"、"AI加速"、"智能計算",可真到了落地環(huán)節(jié),算力才是硬通貨。你有沒有發(fā)現(xiàn),現(xiàn)在越來越多的AI企業(yè)不光用GPU,也不怎么迷信TPU了?他們嘴里多了一個新詞兒——智算
    的頭像 發(fā)表于 06-05 13:39 ?1644次閱讀
    智算<b class='flag-5'>加速</b>卡是什么東西?它真能在AI戰(zhàn)場上干掉<b class='flag-5'>GPU</b>和TPU!

    GPU架構深度解析

    GPU架構深度解析從圖形處理到通用計算的進化之路圖形處理單元(GPU),作為現(xiàn)代計算機中不可或缺的一部分,已經從最初的圖形渲染專用處理器,發(fā)展成為強大的并行
    的頭像 發(fā)表于 05-30 10:36 ?1852次閱讀
    <b class='flag-5'>GPU</b>架構深度解析

    RK3588核心板在邊緣AI計算中的顛覆性優(yōu)勢與場景落地

    推理任務,需額外部署GPU加速卡,導致成本與功耗飆升。 擴展性受限:老舊接口(如USB 2.0、百兆網口)無法支持5G模組、高速存儲等現(xiàn)代外設,升級困難。 開發(fā)周期長:BSP適配不完善,跨平臺AI
    發(fā)表于 04-15 10:48