91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用NCCL 2.12將所有all2all性能翻倍

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:Karthik Mandakolathur, ? 2022-04-02 14:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

集體通信是現(xiàn)代分布式人工智能培訓(xùn)工作(如推薦系統(tǒng)和自然語言處理)的一個(gè)關(guān)鍵性能組成部分。

NVIDIA Collective Communication Library ( NCCL )是一個(gè) Magnum IO 庫,可實(shí)現(xiàn) GPU 加速的集體操作:

集合

全部減少

廣播

減少

減少分散

點(diǎn)對點(diǎn)發(fā)送和接收

NCCL 具有拓?fù)湟庾R,經(jīng)過優(yōu)化,可通過 PCIe 、 NVLink 、以太網(wǎng)和 InfiniBand 互連實(shí)現(xiàn)高帶寬和低延遲。 NCCL GCP 插件 和 NCCL AWS 插件 通過自定義網(wǎng)絡(luò)連接,在流行的云環(huán)境中實(shí)現(xiàn)高性能 NCCL 操作。

NCCL 版本一直致力于提高集體溝通績效。這篇文章主要關(guān)注 NCCL 2.12 版本帶來的改進(jìn)。

結(jié)合 NVLink 和網(wǎng)絡(luò)通信

NCCL 2.12 中引入的新功能稱為 PXN ,稱為 PCI × NVLink ,因?yàn)樗?GPU 能夠通過 NVLink 然后通過 PCI 與節(jié)點(diǎn)上的 NIC 通信。這不是使用 QPI 或其他無法提供全部帶寬的 CPU 協(xié)議通過 CPU 。這樣,即使每個(gè) GPU 仍然盡可能多地使用其本地 NIC ,但如果需要,它可以訪問其他 NIC 。

GPU 在中間 GPU 上準(zhǔn)備緩沖區(qū),通過 NVLink 寫入,而不是在其本地內(nèi)存上準(zhǔn)備緩沖區(qū)供本地 NIC 發(fā)送。然后,它通知管理該 NIC 的 CPU 代理數(shù)據(jù)已就緒,而不是通知其自己的 CPU 代理。 GPU- CPU 同步可能會稍微慢一點(diǎn),因?yàn)樗赡鼙仨毚┻^ CPU 插槽,但數(shù)據(jù)本身只使用 NVLink 和 PCI 交換機(jī),以保證最大帶寬。

pYYBAGJH6T6AZrvjAAHPZQvB0bY591.png

pYYBAGJH6T6AZrvjAAHPZQvB0bY591.png

圖 1 。軌道優(yōu)化拓?fù)?/p>

在圖 1 的拓?fù)渲?,每個(gè) DGX 系統(tǒng)的 NIC-0 連接到同一個(gè)葉交換機(jī)( L0 ), NIC-1 連接到同一個(gè)葉交換機(jī)( L1 ),依此類推。這種設(shè)計(jì)通常被稱為 rail-optimized 。鐵路優(yōu)化網(wǎng)絡(luò)拓?fù)溆兄谧畲笙薅鹊靥岣咚辛髁浚档托阅?,同時(shí)最大限度地減少流量之間的網(wǎng)絡(luò)干擾。它還可以通過輕軌之間的連接來降低網(wǎng)絡(luò)成本。

PXN 利用節(jié)點(diǎn)內(nèi) GPU 之間的 NVIDIA NVSwitch 連接,首先將 GPU 上的數(shù)據(jù)移動到與目的地相同的軌道上,然后在不跨越軌道的情況下將其發(fā)送到目的地。這可以實(shí)現(xiàn)消息聚合和網(wǎng)絡(luò)流量優(yōu)化。

poYBAGJH6UWAYSoPAAK4YVwsqe8319.png

poYBAGJH6UWAYSoPAAK4YVwsqe8319.png

圖 2 。從 DGX-A 中的 GPU0 到 DGX-B 中的 GPU3 的消息路徑示例

在 NCCL 2.12 之前,圖 X 中的消息會穿過網(wǎng)絡(luò)交換機(jī)的三個(gè)躍點(diǎn)( L0 、 S1 和 L3 ),這可能會導(dǎo)致爭用,并被其他流量減慢。在同一對 NIC 之間傳遞的消息被聚合,以最大限度地提高有效消息速率和網(wǎng)絡(luò)帶寬。

消息聚合

使用 PXN ,給定節(jié)點(diǎn)上的所有 GPU 將其數(shù)據(jù)移動到給定目的地的單個(gè) GPU 上。這使得網(wǎng)絡(luò)層能夠通過實(shí)現(xiàn)新的多接收功能來聚合消息。該功能使遠(yuǎn)程 CPU 代理能夠在所有消息準(zhǔn)備就緒后立即將它們作為一個(gè)整體發(fā)送。

例如,如果節(jié)點(diǎn)上的 GPU 正在執(zhí)行 all2all 操作,并且要從遠(yuǎn)程節(jié)點(diǎn)的所有八個(gè) GPU 接收數(shù)據(jù), NCCL 調(diào)用具有八個(gè)緩沖區(qū)和大小的多接收。在發(fā)送方方面,網(wǎng)絡(luò)層可以等待所有八次發(fā)送就緒,然后一次發(fā)送所有八條消息,這會對消息速率產(chǎn)生顯著影響。

消息聚合的另一個(gè)方面是,現(xiàn)在在給定目的地的所有 GPU 節(jié)點(diǎn)之間共享連接。這意味著要建立的連接更少。如果路由算法依賴于有很多不同的連接來獲得良好的熵,這也會影響路由效率。

PXN 提高了所有 2 的性能

pYYBAGJH6UaAI_0cAABFu9rpG4Q741.png

pYYBAGJH6UaAI_0cAABFu9rpG4Q741.png

圖 3 。所有 2 跨四個(gè)參與流程的所有集體操作

圖 3 顯示了 all2all 需要從每個(gè)進(jìn)程到其他每個(gè)進(jìn)程的通信。換句話說,在 N – GPU 集群中,作為 all2all 操作的一部分交換的消息數(shù)是$ O ( N ^{ 2 })$。

GPU 之間交換的消息是不同的,無法使用 樹/環(huán)等算法(用于 allreduce ) 進(jìn)行優(yōu)化。當(dāng)您在 GPU 的 100 秒內(nèi)運(yùn)行十億個(gè)以上的參數(shù)模型時(shí),消息的數(shù)量可能會觸發(fā)擁塞、創(chuàng)建網(wǎng)絡(luò)熱點(diǎn),并對性能產(chǎn)生不利影響。

如前所述, PXN 將 NVLink 和 PCI 通信結(jié)合起來,以減少通過第二層脊椎交換機(jī)的流量,并優(yōu)化網(wǎng)絡(luò)流量。它還通過將多達(dá)八條消息聚合為一條消息來提高消息速率。這兩項(xiàng)改進(jìn)都顯著提高了所有 2 的性能。

所有 reduce 都基于 1:1 GPU:NIC 拓?fù)?/p>

PXN 解決的另一個(gè)問題是拓?fù)涞那闆r,即每個(gè) NIC 附近都有一個(gè) GPU 。環(huán)形算法要求兩個(gè) GPU 靠近每個(gè) NIC 。數(shù)據(jù)必須從網(wǎng)絡(luò)傳輸?shù)降谝粋€(gè) GPU ,通過 NVLink 繞過所有 GPU ,然后從最后一個(gè) GPU 退出網(wǎng)絡(luò)。第一個(gè)和最后一個(gè) GPU 必須都靠近 NIC 。第一個(gè) GPU 必須能夠有效地從網(wǎng)絡(luò)接收,最后一個(gè) GPU 必須能夠有效地通過網(wǎng)絡(luò)發(fā)送。如果只有一個(gè) GPU 靠近給定的 NIC ,則無法關(guān)閉環(huán),必須通過 CPU 發(fā)送數(shù)據(jù),這可能會嚴(yán)重影響性能。

有了 PXN ,只要最后一個(gè) GPU 可以通過 NVLink 訪問第一個(gè) GPU ,它就可以將數(shù)據(jù)移動到第一個(gè) GPU 。數(shù)據(jù)從那里發(fā)送到 NIC ,將所有傳輸保持在 PCI 交換機(jī)的本地。

這種情況不僅與每個(gè) PCI 交換機(jī)具有一個(gè) GPU 和一個(gè) NIC 的 PCI 拓?fù)溆嘘P(guān),而且當(dāng) NCCL 通信器僅包含 GPU 的子集時(shí),也可能發(fā)生在其他拓?fù)渖???紤]具有 nVLink 超立方體網(wǎng)格的 8x GPU 互連的節(jié)點(diǎn)。

pYYBAGJH6UmAb1W9AAD--ai_XBA379.png

pYYBAGJH6UmAb1W9AAD--ai_XBA379.png

圖 4 。 NVIDIA DGX-1 系統(tǒng)中的網(wǎng)絡(luò)拓?fù)?/p>

圖 5 顯示了當(dāng)通信器包括系統(tǒng)中的所有 8x GPU 時(shí),利用拓?fù)渲锌捎玫母邘?NVLink 連接可以形成的環(huán)。這是可能的,因?yàn)?GPU0 和 GPU1 共享對同一本地 NIC 的訪問。

poYBAGJH6UqAEjcSAADvGdO886I478.png

poYBAGJH6UqAEjcSAADvGdO886I478.png

圖 5 。 NCCL 使用的環(huán)形路徑示例

通訊器只能包含 GPU 的一個(gè)子集。例如,它可以只包含 GPU 0 、 2 、 4 和 6 。在這種情況下,如果不穿過軌道,就不可能創(chuàng)建環(huán):從 GPU 0 進(jìn)入節(jié)點(diǎn)的環(huán)必須從 GPU 2 、 4 或 6 退出,這些環(huán)不能直接訪問 GPU 0 ( NIC 0 和 1 )的本地 NIC 。

另一方面, PXN 允許形成環(huán),因?yàn)?GPU 2 可以在通過 NIC 0 / 1 之前將數(shù)據(jù)移回 GPU 0 。

這種情況在模型并行性中很常見,具體取決于模型的拆分方式。例如,如果一個(gè)模型在 GPU 0-3 之間拆分,則另一個(gè)模型在 GPU 4-7 上運(yùn)行。這意味著 GPU 0 和 4 負(fù)責(zé)模型的同一部分,并且在所有節(jié)點(diǎn)上創(chuàng)建了一個(gè) NCCL 通信器,其中包含所有 GPU 0 和 4 ,以執(zhí)行相應(yīng)層的所有 reduce 操作。沒有 PXN ,這些通訊器無法有效地執(zhí)行所有 reduce 操作。

到目前為止,實(shí)現(xiàn)高效模型并行的唯一方法是在 GPU 0 , 2 , 4 , 6 和 1 , 3 , 5 , 7 上拆分模型,這樣 NCCL 子通信程序?qū)?GPU [0 , 1]、[2 , 3]、[4 , 5]和[6 , 7],而不是[0 , 4]、[1 , 5]、[2 , 6]和[3 , 7]。新的 PXN 特性為您提供了更大的靈活性,并簡化了模型并行性的使用。

pYYBAGJH6UuAcFsyAACamqYFxno486.jpg

pYYBAGJH6UuAcFsyAACamqYFxno486.jpg

圖 6 。 NCCL 2.12 PXN 性能改進(jìn)

圖 6 對比了在使用和不使用 PXN 的情況下完成所有集合操作的時(shí)間。此外, PXN 為所有 reduce 操作提供了更靈活的 GPU 選擇。

總結(jié)

NCCL 2.12 版本顯著提高了所有 2 所有通信集體性能。 Download 最新的 NCCL 版本,并親身體驗(yàn)改進(jìn)后的性能。

關(guān)于作者

Karthik Mandakolathur 是 NVIDIA Magnum IO 的產(chǎn)品經(jīng)理,專注于加速分布式 AI 、數(shù)據(jù)分析和 HPC 應(yīng)用。憑借 20 多年的行業(yè)經(jīng)驗(yàn), Karthik 曾在 Broadcom 和 Cisco 擔(dān)任高級工程和產(chǎn)品職務(wù)。他在沃頓商學(xué)院獲得工商管理碩士學(xué)位,在斯坦福大學(xué)獲得工商管理碩士學(xué)位,在印度理工學(xué)院獲得工商管理學(xué)士學(xué)位。他在高性能交換架構(gòu)領(lǐng)域擁有多項(xiàng)美國專利。

Sylvain Jeaugey 是 NVIDIA 的高級軟件工程師,自 2015 年創(chuàng)建 NCCL 庫以來一直在開發(fā)該庫。他在大規(guī)模分布式計(jì)算方面有 15 年的經(jīng)驗(yàn)。他一直致力于各種 MPI 實(shí)現(xiàn),開發(fā)和集成高速網(wǎng)絡(luò)技術(shù),并設(shè)計(jì)大型網(wǎng)絡(luò)結(jié)構(gòu)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5213

    瀏覽量

    135615
  • 人工智能
    +關(guān)注

    關(guān)注

    1819

    文章

    50138

    瀏覽量

    265790
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    中興通訊攜全棧AI創(chuàng)新成果亮相MWC 2026

    2026年世界移動大會(MWC26巴塞羅那)將于3月2日至5日在西班牙巴塞羅那舉行。中興通訊以“智啟未來”為主題,秉持“All in AI,AI for All”核心理念,全面展現(xiàn)“
    的頭像 發(fā)表于 03-03 15:34 ?356次閱讀

    IoT智能模塊高速緩存核心IS61WV204816ALL-12B

    ISSI 32Mbit SRAM IS61WV204816ALL-12B為IoT智能模塊提供高速數(shù)據(jù)緩存,憑借12ns訪問速度、1.6V超低功耗及工業(yè)級溫度范圍,確保設(shè)備在實(shí)時(shí)數(shù)據(jù)處理中的高效可靠運(yùn)行,顯著提升響應(yīng)速度與續(xù)航能力。
    的頭像 發(fā)表于 02-02 09:57 ?330次閱讀
    IoT智能模塊高速緩存核心IS61WV204816<b class='flag-5'>ALL</b>-12B

    全碳化硅 (All-SiC) 有源中點(diǎn)鉗位 (ANPC) 拓?fù)浣鉀Q方案研究報(bào)告

    全碳化硅 (All-SiC) 有源中點(diǎn)鉗位 (ANPC) 拓?fù)浣鉀Q方案研究報(bào)告:設(shè)計(jì)、性能分析與系統(tǒng)集成 BASiC Semiconductor基本半導(dǎo)體一級代理商傾佳電子(Changer Tech
    的頭像 發(fā)表于 01-28 11:29 ?236次閱讀
    全碳化硅 (<b class='flag-5'>All</b>-SiC) 有源中點(diǎn)鉗位 (ANPC) 拓?fù)浣鉀Q方案研究報(bào)告

    RDMA設(shè)計(jì)29:RoCE v2 發(fā)送及接收模塊設(shè)計(jì)2

    的數(shù)據(jù)。 由于請求生成單元和應(yīng)答生成單元并不是所有時(shí)刻都需要與 DMA 控制器進(jìn)行數(shù)據(jù)交互,所以這里使用兩個(gè)狀態(tài)機(jī)分別控制請求生成和應(yīng)答生成流程,以此來提高系統(tǒng)工作效率、降低響應(yīng)延遲。RoCE v2 發(fā)送
    發(fā)表于 01-26 16:47

    10 INCH-D-PRIME-MV Amphenol All Sensors 板機(jī)接口壓力傳感器 AXCXL 10 DN P

    空氣速度和高度傳感器專門設(shè)計(jì)用于無人駕駛飛行器(UAV)。Amphenol All Sensors無人偵察機(jī)傳感器具有高精度氣速和海拔高度測量功能。該傳感器差分傳感器技術(shù)與增強(qiáng)型溫度補(bǔ)償和線性校正
    發(fā)表于 01-22 11:50

    SeaVerse發(fā)布全球首個(gè)AI Native平臺,“All in AI Native”引領(lǐng)AI創(chuàng)作前瞻革命

    建設(shè)實(shí)現(xiàn)"只通過一句話"就能將所有的創(chuàng)意封裝成產(chǎn)品,無論它是Demo,應(yīng)用,還是網(wǎng)頁。開發(fā)團(tuán)隊(duì)表示,SeaVerse是為了解決現(xiàn)在AI工具多且雜、能力各有不同的問題而出現(xiàn)的,而
    的頭像 發(fā)表于 01-14 17:41 ?1301次閱讀

    100 PSI-D-PRIME-MV-A6AAQ 板機(jī)接口壓力傳感器 Amphenol All Sensors

    is acceptable. 100 PSI-D-PRIME-MV-A6AAQAmphenol All Sensors EK-02-00Amphenol All Sensors
    發(fā)表于 12-26 11:54

    探索PROFET? +2 12V客戶評估套件:硬件設(shè)計(jì)與軟件應(yīng)用全解析

    探索PROFET? +2 12V客戶評估套件:硬件設(shè)計(jì)與軟件應(yīng)用全解析 在電子工程師的日常工作中,評估套件是了解和測試新器件性能的重要工具。今天,我們深入探討PROFET? +2 1
    的頭像 發(fā)表于 12-19 15:00 ?431次閱讀

    探索All Sensors EK - 02評估套件:簡化傳感器設(shè)計(jì)與測試流程

    在電子工程師的日常工作中,傳感器的設(shè)計(jì)、測試和驗(yàn)證是至關(guān)重要的環(huán)節(jié)。今天,我們要介紹一款來自Amphenol All Sensors的評估套件——EK - 02,它能顯著簡化All Sensors產(chǎn)品的設(shè)計(jì)、測試和驗(yàn)證過程。
    的頭像 發(fā)表于 12-09 15:01 ?404次閱讀

    Amphenol All Sensors BFTM系列基礎(chǔ)壓力傳感器:高精度與緊湊設(shè)計(jì)的完美結(jié)合

    在電子工程師的日常工作中,壓力傳感器的選擇至關(guān)重要,它直接影響到整個(gè)系統(tǒng)的性能和穩(wěn)定性。今天,我們就來深入了解一下Amphenol All Sensors公司的BFTM系列基礎(chǔ)壓力傳感器,看看它有哪些獨(dú)特的優(yōu)勢和特點(diǎn)。
    的頭像 發(fā)表于 12-09 11:40 ?822次閱讀
    Amphenol <b class='flag-5'>All</b> Sensors BFTM系列基礎(chǔ)壓力傳感器:高精度與緊湊設(shè)計(jì)的完美結(jié)合

    天合光能智慧光儲解決方案亮相2025澳洲All Energy展會

    在2025澳大利亞All Energy清潔能源盛會上,天合光能以新一代大型儲能系統(tǒng)Elementa金剛3和i-TOPCon Ultra組件為核心,重磅展示了專為澳洲市場打造的光儲氫解決方案,包括分布式及極端氣候應(yīng)用創(chuàng)新組件、最新一代儲能和氫能解決方案,全面賦能本地綠色能源轉(zhuǎn)型升級。
    的頭像 發(fā)表于 11-02 11:23 ?751次閱讀

    推薦5個(gè)讓測試效率翻倍的MCP

    推薦5個(gè)讓測試效率翻倍的MCP
    的頭像 發(fā)表于 09-19 10:02 ?658次閱讀
    推薦5個(gè)讓測試效率<b class='flag-5'>翻倍</b>的MCP

    studio編譯過程中報(bào)錯(cuò):syntax error: unexpected如何解決?

    2 \"make -j4 all\" terminated with exit code 2. Build might be incomplete. 出現(xiàn)如上報(bào)錯(cuò)?。?! 請問如何解決?只是在修改代碼,改完后編譯就出現(xiàn)這個(gè)問
    發(fā)表于 09-17 06:06

    元能芯:用All-in-One芯片革新電機(jī)芯片市場

    引言:一家芯片初創(chuàng)公司的崛起 在成立僅一年多的時(shí)間里,元能芯已經(jīng)憑借獨(dú)特的All-in-One全集成芯片技術(shù)迅速崛起。 從All-in-One芯片創(chuàng)新設(shè)計(jì)到大功率技術(shù)難題的破解,從國內(nèi)市場的紅海競爭
    的頭像 發(fā)表于 07-07 13:59 ?982次閱讀
    元能芯:用<b class='flag-5'>All</b>-in-One芯片革新電機(jī)芯片市場

    軟通動力出席ALL IN 2025人力資源服務(wù)展

    此前,6月24-25日,由智享會主辦的中國人力資源領(lǐng)域極具影響力的專業(yè)展會ALL IN 2025 人力資源服務(wù)展在北京隆重啟幕。本屆展會吸引了超過300家全球領(lǐng)先企業(yè)和機(jī)構(gòu)參展,并迎來了6000名人力資源專業(yè)人士、企業(yè)高管及行業(yè)專家共襄盛舉。
    的頭像 發(fā)表于 07-01 09:22 ?988次閱讀