欧美在线无码在线观看,精品国产免费久久,欧美日韩在线观看一区二区三区

NVIDIA 集合通信庫（NCCL）可實(shí)現(xiàn)針對 NVIDIA GPU 和網(wǎng)絡(luò)進(jìn)行性能優(yōu)化的多 GPU 和多節(jié)點(diǎn)通信基元。

關(guān)于 NVIDIA 集合通信庫（NCCL）

NCCL 提供了 all-gather、all-reduce、broadcast、reduce、reduce-scatter、point-to-point send 和 receive 等例程，這些例程均經(jīng)過優(yōu)化，可通過節(jié)點(diǎn)內(nèi)的 PCIe 和 NVLink 高速互聯(lián)以及節(jié)點(diǎn)間的 NVIDIA Mellanox 網(wǎng)絡(luò)實(shí)現(xiàn)高帶寬和低延遲。

先進(jìn)的深度學(xué)習(xí)框架（例如 Caffe2、Chainer、MXNet、PyTorch和 TensorFlow）已集成 NCCL，以在多 GPU 多節(jié)點(diǎn)的系統(tǒng)上加快深度學(xué)習(xí)訓(xùn)練速度。

便捷性能

使用 NCCL，開發(fā)者無需針對特定機(jī)器優(yōu)化其應(yīng)用，因而更加便捷。NCCL 可在節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間實(shí)現(xiàn)多個 GPU 的快速集合。

簡化編程

NCCL 使用可從多種編程語言輕松訪問的簡單 C API，且嚴(yán)格遵循 MPI（消息傳遞接口）定義的主流集合 API。

兼容性

NCCL 幾乎可與任何多 GPU 并行模型兼容，例如：單線程、多線程（每個 GPU 使用一個線程）和多進(jìn)程模型（MPI 與 GPU 上的多線程操作相結(jié)合）。

主要特性

對 AMD、Arm、PCI Gen4 和 IB HDR 上的高帶寬路徑進(jìn)行自動拓?fù)錂z測

憑借利用 SHARPV2 的網(wǎng)絡(luò)內(nèi) all reduce 操作，將峰值帶寬提升 2 倍

通過圖形搜索，找到更佳的高帶寬、低延遲的環(huán)和樹集合

支持多線程和多進(jìn)程應(yīng)用

InfiniBand verbs、libfabric、RoCE 和 IP Socket 節(jié)點(diǎn)間通信

使用 Infiniband 動態(tài)路由重新路由流量，緩解端口擁塞

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴