91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

賽靈思FPGA與VMware vSphere相結(jié)合實(shí)現(xiàn)高吞吐量、低時延ML推斷性能

454398 ? 來源:Xilinx賽靈思官微 ? 作者:Xilinx賽靈思官微 ? 2020-09-29 11:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

硬件加速器已在數(shù)據(jù)中心得到普遍使用,一系列新的工作負(fù)載已經(jīng)能夠成熟地發(fā)揮 FPGA 的加速優(yōu)勢及其更優(yōu)異的計算效率。業(yè)界對機(jī)器學(xué)習(xí) (ML) 的關(guān)注度不斷提高,推動 FPGA 加速器在私有云、公有云、混合云數(shù)據(jù)中心環(huán)境中日益普及,從而為計算密集型工作負(fù)載加速。近期,在推動 IT 基礎(chǔ)設(shè)施向異構(gòu)計算轉(zhuǎn)型的過程中,賽靈思與 VMware 展開協(xié)作,在 VMware 的云計算虛擬化平臺vSphere上測試 FPGA 加速。由于賽靈思 FPGA 越來越廣泛地應(yīng)用于 ML 推斷加速,本文將展示的是如何將賽靈思 FPGA 與 VMware vSphere 相結(jié)合,在虛擬部署和裸機(jī)部署上實(shí)現(xiàn)基本相同的高吞吐量、低時延 ML 推斷性能。

“自適應(yīng)計算”的優(yōu)勢
FPGA 是一種自適應(yīng)計算器件,能夠靈活地進(jìn)行重新編程,從而滿足目標(biāo)應(yīng)用不同的處理需求和功能要求。該特性使 FPGA 從 GPUASIC 等架構(gòu)固定的器件中脫穎而出,更是遠(yuǎn)遠(yuǎn)優(yōu)于成本不斷飆升的的定制 ASIC。此外,與其他硬件加速器相比,F(xiàn)PGA 還具備高能效、低時延的優(yōu)勢,使 FPGA 特別適用于 ML 推斷工作。與基本依靠大量并行處理核心實(shí)現(xiàn)高吞吐量的 GPU 不同的是,F(xiàn)PGA 通過定制化硬件內(nèi)核、數(shù)據(jù)流流水線和互聯(lián),助力 ML 推斷同時實(shí)現(xiàn)高吞吐量和低時延。

01. 在 vSphere 上使用 FPGA 開展 ML 推斷

VMware 在其實(shí)驗(yàn)室中使用賽靈思 Alveo U250 數(shù)據(jù)中心卡進(jìn)行測試。使用在Vitis AI中提供的 Docker 容器——為從邊緣到云端的賽靈思硬件平臺提供的 ML 推斷統(tǒng)一開發(fā)棧,ML 模型可以迅速完成配置。該容器由經(jīng)過優(yōu)化的工具、庫、模型和示例構(gòu)成。Vitis AI 支持含 Caffe 和 TensorFlow 在內(nèi)的主流框架以及能夠執(zhí)行多種深度學(xué)習(xí)任務(wù)的最新模型。此外,Vitis AI 是一種開源應(yīng)用,可通過訪問GitHub獲取。

賽靈思FPGA與VMware vSphere相結(jié)合實(shí)現(xiàn)高吞吐量、低時延ML推斷性能

圖 1:Vitis AI 軟件協(xié)議棧

目前,賽靈思 FPGA 通過 DirectPath I/O 模式(直通模式)能在 vSphere 上使用。在這種模式下,我們的 FPGA 能夠由運(yùn)行在虛擬機(jī)內(nèi)部的應(yīng)用直接訪問,繞過程序管理層,從而最大化性能并最大限度降低時延。配置 DirectPath I/O 模式下的 FPGA 只需簡單的兩步流程:首先,在主機(jī)層面上啟用 ESXi,然后將器件添加到目標(biāo)虛擬機(jī)。詳細(xì)操作方法參見 VMware KB 一文( https://kb.vmware.com/s/article/1010789 )。請注意,如果運(yùn)行的是 vSphere 7,則不再需要重啟主機(jī)。

02. 高吞吐量、低時延 ML 推斷性能

通過與賽靈思合作,VMware 使用四個 CNN 模型執(zhí)行推斷任務(wù),對我們的 Alveo U250 加速器卡在 DirectPath I/O 模式工作下的吞吐量和時延性能進(jìn)行評估。這四個模型分別為Inception_v1、Inception_v2、Resnet50 和 VGG16。這些模型在模型參數(shù)數(shù)量上不盡相同,因而具備不同的處理復(fù)雜性。

測試在搭載兩顆 10 核 Intel Xeon Silver 4114 CPU 和 192GB DDR4 存儲器的 Dell PowerEdge R740 服務(wù)器上進(jìn)行。我們使用 ESXi 7.0 虛擬機(jī)程序管理器,將每種模型的端到端性能結(jié)果與作為基線的裸機(jī)性能進(jìn)行對比。Ubuntu 16.04(內(nèi)核版本 4.4.0-116)用作客戶端操作系統(tǒng)和本地操作系統(tǒng)。此外,在整個測試過程中將 Vitis AI v1.1 與 Docker CE 19.03.4 結(jié)合使用。同時使用源于 ImageNet2012 的 50k 圖像數(shù)據(jù)集。為進(jìn)一步避免圖像讀取過程中遭遇磁盤瓶頸,還創(chuàng)建了一個 RAM 磁盤用于存儲 50k 圖像。

完成這些設(shè)置后,虛擬測試和裸機(jī)測試之間的性能比較可從下面的兩個圖中進(jìn)行觀察。一個針對吞吐量,另一個針對時延。y 軸代表虛擬測試和裸機(jī)測試間的吞吐量性能比值。y=1.0 代表虛擬測試和裸機(jī)測試的吞吐量性能結(jié)果相同。

圖 2:在 Alveo U250 FPGA 上運(yùn)行 ML 推斷時裸機(jī)測試和虛擬測試的吞吐量性能比較

圖 3:在 Alveo U250 FPGA 上運(yùn)行 ML 推斷時裸機(jī)測試和虛擬測試的時延性能比較

測試證明,虛擬環(huán)境和裸機(jī)間在吞吐量和時延兩方面的性能差距最大不超過 2%。這說明在虛擬環(huán)境中運(yùn)行在 vSphere 上的 Alveo U250 的 ML 性能與作為基線的裸機(jī)性能極為相近。

03. 云端的 FPGA 性能

在數(shù)據(jù)中心中采用 FPGA 加速器已成為普遍現(xiàn)象,而且為滿足對異構(gòu)計算和性能提升的需求,F(xiàn)PGA 加速器的應(yīng)用還將繼續(xù)增長。我們非常高興能夠與 VMware 展開合作,共同確??蛻裟艹浞职l(fā)揮運(yùn)行在 vSphere 平臺上的賽靈思 FPGA 加速的全部優(yōu)勢。我們在 vSphere 上對我們的 Alveo U250 加速器卡進(jìn)行 ML 推斷性能測試,成功地向客戶證明了該器件在 DirectPath I/O 模式下能夠?qū)崿F(xiàn)接近裸機(jī)的性能。

編輯:hfy


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1660

    文章

    22411

    瀏覽量

    636266
  • 賽靈思
    +關(guān)注

    關(guān)注

    33

    文章

    1798

    瀏覽量

    133426
  • 云計算
    +關(guān)注

    關(guān)注

    39

    文章

    8021

    瀏覽量

    144379
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8553

    瀏覽量

    136934
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    軟銀、愛立信、通共同測試下一代5G能力(含L4S)

    與穩(wěn)定通信 ? 此次測試三家公司在在東京都市區(qū)的5G SA商用網(wǎng)絡(luò)上驗(yàn)證了多項(xiàng)5G及5G-A技術(shù),包括、低損耗、可擴(kuò)展吞吐量(L4S) 01 測試概述 作為一個應(yīng)用案例,三家公司通過 智能眼鏡 進(jìn)行了對實(shí)時
    的頭像 發(fā)表于 01-21 18:23 ?6149次閱讀

    用“分區(qū)”來面對超大數(shù)據(jù)集和超大吞吐量

    分區(qū)(partitions) 也被稱為 分片(sharding),通常采用對數(shù)據(jù)進(jìn)行分區(qū)的方式來增加系統(tǒng)的 可伸縮性,以此來面對非常大的數(shù)據(jù)集或非常吞吐量,避免出現(xiàn)熱點(diǎn)。
    的頭像 發(fā)表于 12-30 16:40 ?203次閱讀
    用“分區(qū)”來面對超大數(shù)據(jù)集和超大<b class='flag-5'>吞吐量</b>

    工程師必入!288 元解鎖開發(fā)板

    做項(xiàng)目、練技術(shù)、備賽事卻找不到高性價比開發(fā)板?合眾恒躍重磅福利——ZYNQ系列開發(fā)板限時特惠,HZ-XC-7Z010-SP_EVM寵粉價僅需288元!
    的頭像 發(fā)表于 12-17 17:48 ?758次閱讀
    工程師必入!288 元解鎖<b class='flag-5'>賽</b><b class='flag-5'>靈</b><b class='flag-5'>思</b>開發(fā)板

    WiFi7速率怎么算?一個公式看懂 46Gbps 從何而來

    、機(jī)場、鐵站、體育館等場景上網(wǎng)密度、并發(fā)量大,WiFi 7通過靈活的頻譜調(diào)度與干擾抑制,改善多用戶并發(fā)與空口效率,降低網(wǎng)絡(luò)波動,確保了在高密度環(huán)境下的穩(wěn)定連接和吞吐量。 智能無線
    發(fā)表于 12-09 11:42

    如何加速實(shí)時工作負(fù)載

    對于需要實(shí)時響應(yīng)的數(shù)據(jù)中心工作負(fù)載,性能不僅是指原始吞吐量或處理能力。挑戰(zhàn)在于:在保持吞吐量和能效的同時,實(shí)現(xiàn)確定性時。
    的頭像 發(fā)表于 09-10 15:36 ?704次閱讀

    使用羅德與施瓦茨CMX500的吞吐量應(yīng)用層測試方案

    5G NR(New Radio)吞吐量應(yīng)用層測試是評估5G網(wǎng)絡(luò)性能的一個重要方面,它主要關(guān)注的是在實(shí)際應(yīng)用條件下,用戶能夠體驗(yàn)到的數(shù)據(jù)傳輸速率。這種測試通常包括了對下行鏈路和上行鏈路的吞吐量進(jìn)行測量,以確保網(wǎng)絡(luò)可以滿足各種應(yīng)用場
    的頭像 發(fā)表于 09-02 13:56 ?7942次閱讀
    使用羅德與施瓦茨CMX500的<b class='flag-5'>吞吐量</b>應(yīng)用層測試方案

    特方案 | FPGA 加持,友特圖像采集卡高速預(yù)處理助力視覺系統(tǒng)運(yùn)行提速增效

    圖像預(yù)處理是圖像處理關(guān)鍵中間環(huán)節(jié),通過優(yōu)化傳感器到主機(jī)的數(shù)據(jù)傳輸處理為后續(xù)減負(fù)。其算法依托硬件執(zhí)行,搭載?FPGA?的友特圖像采集卡以高速運(yùn)算和并行特性縮短處理時間、降低延遲并提升吞吐量,助力高速
    的頭像 發(fā)表于 08-20 09:18 ?981次閱讀
    友<b class='flag-5'>思</b>特方案 | <b class='flag-5'>FPGA</b> 加持,友<b class='flag-5'>思</b>特圖像采集卡高速預(yù)處理助力視覺系統(tǒng)運(yùn)行提速增效

    特威第二屆機(jī)器視覺大會即將舉辦

    去年盛夏,首屆易特威機(jī)器視覺技術(shù)大會點(diǎn)燃了行業(yè)創(chuàng)新的火花。易驚艷亮相的 TJ375 FPGA
    的頭像 發(fā)表于 08-13 09:53 ?1092次閱讀

    如何評估協(xié)議分析儀的性能指標(biāo)?

    、Wireshark)生成測試報告。 實(shí)際場景驗(yàn)證:在目標(biāo)網(wǎng)絡(luò)中部署分析儀,監(jiān)控72小時以上性能表現(xiàn)。 長期跟蹤:每季度復(fù)測性能衰減情況(如硬件老化導(dǎo)致吞吐量下降)。 示例評估表: [td]指標(biāo)權(quán)重測試方法目標(biāo)值
    發(fā)表于 07-18 14:44

    u-blox發(fā)布首款車規(guī)級Wi-Fi 7模塊RUBY-W2

    基于通技術(shù)公司Snapdragon汽車連接平臺先進(jìn)Wi-Fi 7技術(shù),RUBY-W2支持更多并發(fā)用戶連接,以吞吐量延遲實(shí)現(xiàn)車規(guī)級互聯(lián)
    的頭像 發(fā)表于 06-17 10:56 ?1915次閱讀

    Altera SoC FPGA如何助力實(shí)現(xiàn)AI信道估計

    隨著無線系統(tǒng)的持續(xù)演進(jìn),其能夠支持更多的連接設(shè)備和更高的數(shù)據(jù)需求,同時無線信號鏈的效率和精度也變得至關(guān)重要。信號鏈中的基本要素之一是信道估計,即系統(tǒng)實(shí)時推斷無線通信路徑特性的過程。信道估計不準(zhǔn)確會導(dǎo)致吞吐量下降、時增加并降低系
    的頭像 發(fā)表于 06-14 14:54 ?1502次閱讀

    CY7C65211 作為 SPI 從機(jī)模式工作時每秒的最大吞吐量是多少?

    CY7C65211 作為 SPI 從機(jī)模式工作時每秒的最大吞吐量是多少? 有實(shí)際的測試數(shù)據(jù)嗎?
    發(fā)表于 05-27 07:38

    如何在Visual Studio 2022中運(yùn)行FX3吞吐量基準(zhǔn)測試工具?

    我正在嘗試運(yùn)行 John Hyde 的書“SuperSpeed by Design”中的 FX3 吞吐量基準(zhǔn)測試工具。 但是,我面臨一些困難,希望得到任何指導(dǎo)。 具體來說,我正在使用 Visual
    發(fā)表于 05-13 08:05

    FX3進(jìn)行讀或?qū)懖僮鲿rCS信號拉,在讀或?qū)懲瓿珊驝S置,對吞吐量有沒有影響?

    從盡可能提高吞吐量的角度看,在進(jìn)行讀或?qū)懖僮鲿rCS信號拉,在讀或?qū)懲瓿珊驝S置,對吞吐量有沒有影響,還是應(yīng)該CS一直拉比較好。
    發(fā)表于 05-08 07:13

    2025 FPGA技術(shù)研討會北京站圓滿結(jié)束

    2025FPGA技術(shù)研討會北京站于4月10日在北京麗亭華苑酒店圓滿結(jié)束!本次研討會吸引了來自全國各地的行業(yè)專家、工程師及企業(yè)代表踴躍參與,現(xiàn)場座無虛席,氣氛熱烈。
    的頭像 發(fā)表于 04-16 09:14 ?1359次閱讀