91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA多個(gè)DPU加速HPC集群中的科學(xué)應(yīng)用

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-30 07:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

高性能計(jì)算( HPC )和人工智能已經(jīng)將超級(jí)計(jì)算機(jī)作為主要的數(shù)據(jù)處理引擎,廣泛應(yīng)用于商業(yè)領(lǐng)域,使研究、科學(xué)發(fā)現(xiàn)和產(chǎn)品開發(fā)成為可能。這些系統(tǒng)可以進(jìn)行復(fù)雜的模擬,開啟軟件編寫軟件的人工智能新時(shí)代。

超級(jí)計(jì)算領(lǐng)導(dǎo)力是指科學(xué)和創(chuàng)新領(lǐng)導(dǎo)力,它解釋了許多政府、研究機(jī)構(gòu)和企業(yè)為構(gòu)建更快、更強(qiáng)大的超級(jí)計(jì)算平臺(tái)而進(jìn)行的投資。從超級(jí)計(jì)算系統(tǒng)中提取盡可能高的性能,同時(shí)實(shí)現(xiàn)高效利用,傳統(tǒng)上與現(xiàn)代云計(jì)算的安全、多租戶體系結(jié)構(gòu)不兼容。

一個(gè)云本地超級(jí)計(jì)算平臺(tái)首次提供了兩全其美,將峰值性能和集群效率與安全隔離和多租戶的現(xiàn)代零信任模型結(jié)合起來。實(shí)現(xiàn)這種架構(gòu)轉(zhuǎn)換的關(guān)鍵元素是 NVIDIA BlueField 數(shù)據(jù)處理單元( DPU )。 DPU 是一個(gè)完全集成的片上數(shù)據(jù)中心平臺(tái),為每個(gè)超級(jí)計(jì)算節(jié)點(diǎn)注入了兩種新功能:

基礎(chǔ)設(shè)施控制平面處理器 – 保護(hù)用戶訪問、存儲(chǔ)訪問、網(wǎng)絡(luò)和計(jì)算節(jié)點(diǎn)的生命周期編排,減輕主計(jì)算處理器的負(fù)擔(dān)并實(shí)現(xiàn)裸機(jī)多租戶。

帶硬件加速的隔離線速率數(shù)據(jù)通路 – 實(shí)現(xiàn)裸機(jī)性能。

HPC 和 AI 通信框架和庫對(duì)延遲和帶寬敏感,它們?cè)跊Q定應(yīng)用程序性能方面起著關(guān)鍵作用。將庫從主機(jī) CPUGPU 卸載到 BlueField DPU 為通信和計(jì)算的并行進(jìn)程創(chuàng)建了最高程度的重疊。它還減少了操作系統(tǒng)抖動(dòng)的負(fù)面影響,顯著提高了應(yīng)用程序性能。

云本地超級(jí)計(jì)算機(jī)體系結(jié)構(gòu)的開發(fā)基于開放社區(qū)開發(fā),包括商業(yè)公司、學(xué)術(shù)組織和政府機(jī)構(gòu)。這個(gè)不斷增長的社區(qū)對(duì)于開發(fā)下一代超級(jí)計(jì)算至關(guān)重要。

我們?cè)诒疚闹蟹窒淼囊粋€(gè)例子是 MVAPICH2- DPU 庫,由 X-ScaleSolutions 設(shè)計(jì)和開發(fā)。 MVAPICH2- DPU 庫包含了消息傳遞接口( MPI )標(biāo)準(zhǔn)的非阻塞集合的卸載。這篇文章概述了這種卸載背后的基本概念,以及最終用戶如何使用 MVAPICH2- DPU MPI 庫來加速科學(xué)應(yīng)用程序的執(zhí)行,特別是使用密集的非阻塞 all-to-all 操作。

BlueField DPU

圖 1 顯示了 BlueField DPU 體系結(jié)構(gòu)及其與主機(jī)計(jì)算平臺(tái)的連接的概述。 DPU 通過 ConnectX-6 適配器具有 InfiniBand 網(wǎng)絡(luò)連接。此外,它還有一組 Arm 內(nèi)核。 Bluefield-2 DPU 有一組 8 個(gè) Arm 內(nèi)核,每個(gè)內(nèi)核的工作頻率為 2 。 0ghz 。 Arm 內(nèi)核還有 16GB 的共享內(nèi)存。

MVAPICH2- DPU MPI 庫

MVAPICH2- DPU MPI 庫是 MVMPI 庫 的派生。該庫經(jīng)過優(yōu)化,可利用 InfiniBand 網(wǎng)絡(luò)充分發(fā)揮 BlueField DPU 的潛力。

poYBAGJlFmWABebUAAC0yuqJ7Os775.png

圖 1 BlueField DPU 的體系結(jié)構(gòu)及其與主機(jī)平臺(tái)的連接

最新的 MVAPICH2- DPU 2021 。 06 版本具有以下功能:

基于 MVAPICH2 2 。 3 。 6 ,符合 MPI 3 。 1 標(biāo)準(zhǔn)

支持 MV2 。 3 。 6 版本 提供的所有功能

將非阻塞集合卸載到 DPU 的新框架

將非阻塞 Alltoall ( MPI \ Ialltoall )卸載到 DPU

所有非阻塞集合的計(jì)算重疊率為 100%

使用 MPI Ialltoall 非阻塞集合加速科學(xué)應(yīng)用

MVAPICH2- DPU MPI 庫入門

MVAPICH2- DPU 庫可從 X-ScaleSolutions 獲得:

發(fā)送電子郵件至 contactus@x-scalesolutions.com

填寫聯(lián)系人 形式

有關(guān)更多信息,請(qǐng)參閱 MVAPICH2-DPU 產(chǎn)品頁。

OSU 微基準(zhǔn)的示例執(zhí)行

OSU MPI 微基準(zhǔn) 的副本與 MVAPICH2- DPU MPI 包集成在一起。 OMB 基準(zhǔn)套件由非阻塞集體操作的基準(zhǔn)組成。這些基準(zhǔn)旨在評(píng)估非阻塞 MPI 集合使用的計(jì)算和通信之間的重疊能力。

可以執(zhí)行 OMB 包中的非阻塞集體基準(zhǔn),以評(píng)估以下指標(biāo):

重疊功能

啟動(dòng)非阻塞集合后立即合并計(jì)算步驟時(shí)的總執(zhí)行時(shí)間

在 HPC-AI 咨詢委員會(huì)集群上運(yùn)行了一組 OMB 實(shí)驗(yàn),其中 32 個(gè)節(jié)點(diǎn)與支持 HDR 200Gb / s InfiniBand 連接的 32 個(gè) BlueField DPU s 相連。每個(gè)主機(jī)節(jié)點(diǎn)都有雙插槽 Intel Xeon 16 核 CPU E5-2697A V4 @ 2 。 60 GHz 。每個(gè) Bluefield-2 DPU 有 8 個(gè) Arm 核@ 2 。 0ghz 和 16gb 內(nèi)存。

圖 2 顯示了分別運(yùn)行 512 個(gè)( 32 個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)有 16 個(gè)進(jìn)程( PPN ))和 1024 個(gè)( 32 個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)有 32 個(gè) PPN ) MPI 進(jìn)程的 MPI \ u ialtoall 非阻塞集合基準(zhǔn)的性能結(jié)果。隨著消息大小的增加, MVAPICH2- DPU 庫可以顯示計(jì)算和 MPI Ialltoall 非阻塞集合之間的峰值( 100% )重疊。相比之下,沒有這種 DPU 卸載功能的 MVAPICH2 默認(rèn)庫可以在計(jì)算和 MPI (所有非阻塞)集合之間提供很少的重疊。

pYYBAGJlFmeAUXXVAACO987vgLM434.png

圖 2 MVAPICH2- DPU 庫提取主機(jī)和服務(wù)器上發(fā)生的計(jì)算之間的峰值重疊的能力 MPI_Ialltoall 通信

當(dāng) MPI 應(yīng)用程序中的計(jì)算步驟以重疊方式與 MPI Ialltoall 非阻塞集合操作一起使用時(shí), MVAPICH2- DPU MPI 庫在整個(gè)程序執(zhí)行時(shí)間內(nèi)提供了顯著的性能優(yōu)勢。這是可能的,因?yàn)?DPU 中的 Arm 內(nèi)核可以實(shí)現(xiàn)非阻塞的 all-to-all 操作,而主機(jī)上的 Xeon 內(nèi)核正在執(zhí)行峰值重疊的計(jì)算(圖 2 )。

圖 3 顯示,與基本的 MVAPICH2 MPI 庫相比, MVAPICH2- DPU MPI 庫可以提供高達(dá) 23% 的性能優(yōu)勢。這是在 32 節(jié)點(diǎn)的 OMB-MPI-Iall 基準(zhǔn)測試中跨消息大小和 ppn 的測試。

poYBAGJlFmiALO45AACbkHIwDY0000.png

圖 3 當(dāng)計(jì)算步驟與 MPI_Ialltoall 以重疊方式進(jìn)行非阻塞集體操作

加速 P3DFFT 應(yīng)用程序內(nèi)核

P3DFFT 是一種常見的 MPI 內(nèi)核,用于許多使用快速傅立葉變換( FFT )的終端應(yīng)用程序。這個(gè) MPI 內(nèi)核的一個(gè)版本是由 P3DFFT 開發(fā)人員設(shè)計(jì)的,它使用非阻塞的 all-to-all 集合操作和計(jì)算步驟來利用最大的重疊。

P3DFFT MPI 內(nèi)核的增強(qiáng)版本在 32 節(jié)點(diǎn) HPC-AI 集群上使用 MVAPICH2- DPU MPI 庫進(jìn)行了評(píng)估。圖 4 顯示了 MVAPICH2- DPU MPI 庫將 P3DFFT 應(yīng)用程序內(nèi)核的總體執(zhí)行時(shí)間減少了 21% ,適用于各種網(wǎng)格大小和 ppn 。

pYYBAGJlFmiAbxLCAACQMsGnHiA766.png

圖 4 MVAPICH2- DPU 庫減少 P3DFFT 應(yīng)用程序總執(zhí)行時(shí)間的能力。

概括

NVIDIA DPU 體系結(jié)構(gòu)提供了新的功能,可以將任何中間件的功能卸載到 DPU 上的可編程 Arm 內(nèi)核。必須重新設(shè)計(jì) MPI 庫,以利用這些功能加速科學(xué)應(yīng)用。

MVAPICH2- DPU MPI 庫是利用這種 DPU 功能的領(lǐng)先庫。 MVAPICH2- DPU 庫的初始版本提供了對(duì) MPI \ u ialtoall nonblocking collectives 的卸載支持,顯示了計(jì)算和非阻塞 alltoall collective 之間 100% 的重疊。在 1024mpi 進(jìn)程運(yùn)行時(shí),它可以將 P3DFFT 應(yīng)用程序內(nèi)核執(zhí)行時(shí)間縮短 21% 。

這項(xiàng)研究證明了使用 MVAPICH2- DPU MPI 庫的 DPU 體系結(jié)構(gòu)具有很強(qiáng)的 ROI 。隨著 DPU 體系結(jié)構(gòu)的進(jìn)步,即將發(fā)布的其他 MPI 功能的附加卸載功能將顯著加快云本地超級(jí)計(jì)算系統(tǒng)上的科學(xué)應(yīng)用。

關(guān)于作者

Gilad Shainer 擔(dān)任 NVIDIA Mellanox networking 的營銷高級(jí)副總裁,專注于高性能計(jì)算、人工智能和 InfiniBand 技術(shù)。

Dhabaleswar K (DK) Panda 是 X-SaleSalOffice 的創(chuàng)始人和 CEO ,也是俄亥俄州立大學(xué)計(jì)算機(jī)科學(xué)教授和杰出學(xué)者。

Nick Sarkauskas 是俄亥俄州立大學(xué)計(jì)算機(jī)科學(xué)與工程系博士學(xué)位的軟件工程師。他目前在 X-ScaleSolutions 的工作是設(shè)計(jì)和開發(fā) MVAPICH2- DPU 軟件堆棧。他的研究興趣包括高性能計(jì)算、高性能互連和并行算法。 Nick Sarkauskas 于 2020 年從 OSU 獲得計(jì)算機(jī)科學(xué)與工程學(xué)士學(xué)位。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5597

    瀏覽量

    109785
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50102

    瀏覽量

    265509
  • 應(yīng)用程序
    +關(guān)注

    關(guān)注

    38

    文章

    3344

    瀏覽量

    60269
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    生命科學(xué)領(lǐng)先企業(yè)采用 NVIDIA BioNeMo 平臺(tái)加速 AI 驅(qū)動(dòng)的藥物研發(fā)

    新聞?wù)?l 禮來與 NVIDIA 宣布成立 AI 聯(lián)合創(chuàng)新實(shí)驗(yàn)室以應(yīng)對(duì)藥物研發(fā)挑戰(zhàn)。 l NVIDIA 攜手賽默飛打造自主實(shí)驗(yàn)室基礎(chǔ)設(shè)施,加速可規(guī)模化的科學(xué)發(fā)現(xiàn)。 l Chai
    的頭像 發(fā)表于 01-14 11:40 ?478次閱讀
    生命<b class='flag-5'>科學(xué)</b>領(lǐng)先企業(yè)采用 <b class='flag-5'>NVIDIA</b> BioNeMo 平臺(tái)<b class='flag-5'>加速</b> AI 驅(qū)動(dòng)的藥物研發(fā)

    NVIDIA在ISC 2025分享最新超級(jí)計(jì)算進(jìn)展

    NVIDIA DGX Spark 到 NVIDIA BlueField-4 DPU,新一代網(wǎng)絡(luò)和量子技術(shù)實(shí)現(xiàn)了飛躍。在 SC25 上展示的加速系統(tǒng)突顯了全球超級(jí)計(jì)算和 AI 的進(jìn)展
    的頭像 發(fā)表于 11-25 10:59 ?914次閱讀
    <b class='flag-5'>NVIDIA</b>在ISC 2025分享最新超級(jí)計(jì)算進(jìn)展

    NVIDIA推出全新BlueField-4 DPU

    全新 NVIDIA BlueField DPU 具有 800Gb/s 的吞吐量,其集成的 NVIDIA ConnectX-9 SuperNIC 和 NVIDIA DOCA 微服務(wù)為 A
    的頭像 發(fā)表于 11-03 14:48 ?991次閱讀

    基于NVIDIA BlueField DPU的5G UPF數(shù)據(jù)面加速方案

    在第三屆 NVIDIA DPU 黑客松競賽,我們見證了開發(fā)者與 NVIDIA 網(wǎng)絡(luò)技術(shù)的深度碰撞。在 23 支參賽隊(duì)伍,有 5 支隊(duì)伍脫
    的頭像 發(fā)表于 09-04 11:26 ?1221次閱讀

    NVIDIA助力Axio團(tuán)隊(duì)打造全新DPU數(shù)據(jù)面開發(fā)框架

    在第三屆 NVIDIA DPU 黑客松競賽,我們見證了開發(fā)者與 NVIDIA 網(wǎng)絡(luò)技術(shù)的深度碰撞。在 23 支參賽隊(duì)伍,有 5 支隊(duì)伍脫
    的頭像 發(fā)表于 08-30 15:58 ?1471次閱讀

    利用NVIDIA DPU重塑網(wǎng)絡(luò)安全格局

    在第三屆 NVIDIA DPU 黑客松競賽,我們見證了開發(fā)者與 NVIDIA 網(wǎng)絡(luò)技術(shù)的深度碰撞。在 23 支參賽隊(duì)伍,有 5 支隊(duì)伍脫
    的頭像 發(fā)表于 08-20 14:31 ?1350次閱讀

    NVIDIA AI助力科學(xué)研究領(lǐng)域持續(xù)突破

    隨著 AI 技術(shù)的廣泛應(yīng)用,AI 正在成為科學(xué)研究的引擎。NVIDIA 作為重要的技術(shù)推手,持續(xù)驅(qū)動(dòng)著 AI 系統(tǒng)解鎖更多領(lǐng)域的科學(xué)突破。
    的頭像 發(fā)表于 08-05 16:30 ?1194次閱讀

    NVIDIA驅(qū)動(dòng)的現(xiàn)代超級(jí)計(jì)算機(jī)如何突破速度極限并推動(dòng)科學(xué)發(fā)展

    ,研究人員用個(gè)人電腦構(gòu)建了強(qiáng)大的集群,甚至改造游戲顯卡,把它們用于科學(xué)研究。 當(dāng)今的高性能計(jì)算系統(tǒng)專為高速計(jì)算而設(shè)計(jì),其中許多都采用了 NVIDIA 加速計(jì)算技術(shù)。在 ISC 2025
    的頭像 發(fā)表于 06-26 19:39 ?1267次閱讀
    <b class='flag-5'>NVIDIA</b>驅(qū)動(dòng)的現(xiàn)代超級(jí)計(jì)算機(jī)如何突破速度極限并推動(dòng)<b class='flag-5'>科學(xué)</b>發(fā)展

    高性能計(jì)算集群在AI領(lǐng)域的應(yīng)用前景

    隨著人工智能技術(shù)的飛速發(fā)展,高性能計(jì)算集群HPC)在AI領(lǐng)域的應(yīng)用前景日益受到關(guān)注。HPC提供的計(jì)算能力與AI的智能分析能力相結(jié)合,為解決復(fù)雜問題和推動(dòng)科學(xué)研究提供了新的動(dòng)力。1、
    的頭像 發(fā)表于 06-23 13:07 ?1308次閱讀
    高性能計(jì)算<b class='flag-5'>集群</b>在AI領(lǐng)域的應(yīng)用前景

    NVIDIA攜手微軟加速代理式AI發(fā)展

    代理式 AI 正在重新定義科學(xué)探索,推動(dòng)各行各業(yè)的研究突破和創(chuàng)新發(fā)展。NVIDIA 和微軟正通過深化合作提供先進(jìn)的技術(shù),從云到 PC 加速代理式 AI 應(yīng)用的發(fā)展。
    的頭像 發(fā)表于 05-27 14:03 ?1048次閱讀

    第三屆NVIDIA DPU黑客松開啟報(bào)名

    第三屆 NVIDIA DPU 中國虛擬黑客松(Hackathon)將于 6 月 28 日 - 6 月 30 日正式開啟!作為備受廣大開發(fā)者期待的年度賽事,它將提供與 NVIDIA 加速
    的頭像 發(fā)表于 05-27 10:16 ?903次閱讀

    使用NVIDIA CUDA-X庫加速科學(xué)和工程發(fā)展

    NVIDIA GTC 全球 AI 大會(huì)上宣布,開發(fā)者現(xiàn)在可以通過 CUDA-X 與新一代超級(jí)芯片架構(gòu)的協(xié)同,實(shí)現(xiàn) CPU 和 GPU 資源間深度自動(dòng)化整合與調(diào)度,相較于傳統(tǒng)加速計(jì)算架構(gòu),該技術(shù)可使計(jì)算工程工具運(yùn)行速度提升至原來的 11 倍,計(jì)算規(guī)模增加至 5 倍。
    的頭像 發(fā)表于 03-25 15:11 ?1542次閱讀

    Cadence 利用 NVIDIA Grace Blackwell 加速AI驅(qū)動(dòng)的工程設(shè)計(jì)和科學(xué)應(yīng)用

    融合設(shè)計(jì)專業(yè)知識(shí)與加速計(jì)算,推動(dòng)科技創(chuàng)新、實(shí)現(xiàn)能效和工程生產(chǎn)力方面的突破性進(jìn)展,引領(lǐng)全球生活新范式 內(nèi)容提要 ●?Cadence 借助 NVIDIA 最新 Blackwell 系統(tǒng),將求解器的速度
    的頭像 發(fā)表于 03-24 10:14 ?1422次閱讀

    英偉達(dá)GTC2025亮點(diǎn):Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理

    Oracle 數(shù)據(jù)庫與 NVIDIA AI 相集成,使企業(yè)能夠更輕松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA 加速計(jì)算和推理軟件與 Oracle 的
    的頭像 發(fā)表于 03-21 12:01 ?1445次閱讀
    英偉達(dá)GTC2025亮點(diǎn):Oracle與<b class='flag-5'>NVIDIA</b>合作助力企業(yè)<b class='flag-5'>加速</b>代理式AI推理

    Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計(jì)算和推理軟件與 Oracle 的 AI 基礎(chǔ)設(shè)施以及生成式 AI 服務(wù)首次實(shí)現(xiàn)集成,以幫助全球企業(yè)組織加速創(chuàng)建代理式
    發(fā)表于 03-19 15:24 ?580次閱讀
    Oracle 與 <b class='flag-5'>NVIDIA</b> 合作助力企業(yè)<b class='flag-5'>加速</b>代理式 AI 推理