AV无码直播综合久夜色,亚洲a∨在线一区二区

NVIDIA HPC SDK包含經(jīng)過驗證的編譯器、庫和軟件工具，對于更大程度提高開發(fā)者的工作效率以及 HPC 應(yīng)用的性能和可移植性至關(guān)重要。

NVIDIA HPC SDK C、C++ 和 Fortran 編譯器支持使用標(biāo)準(zhǔn) C++ 和 Fortran、OpenACC 指令和 CUDA 實現(xiàn) HPC 建模和模擬應(yīng)用的 GPU 加速。GPU 加速的數(shù)學(xué)庫可更大限度地提升常用 HPC 算法的性能，而經(jīng)過優(yōu)化的通信庫支持基于標(biāo)準(zhǔn)的多 GPU 和可擴展的系統(tǒng)編程。性能分析和調(diào)試工具可簡化 HPC 應(yīng)用的移植和優(yōu)化流程，而容器化工具支持在本地或云端輕松部署。HPC SDK 支持 NVIDIA GPU 和 Arm、OpenPOWER 或運行 Linux 的 x86-64 CPU，為您提供構(gòu)建 NVIDIA GPU 加速的 HPC 應(yīng)用所需的工具。

為何要使用 NVIDIA HPC SDK？

性能

除了應(yīng)用廣泛的 HPC 應(yīng)用（包括 VASP、Gaussian、ANSYS Fluent、GROMACS 和 NAMD），還可以使用 CUDA、OpenACC 和 GPU 加速的數(shù)學(xué)庫，為用戶提供突破性性能。您可以使用這些相同的軟件工具對應(yīng)用進(jìn)行 GPU 加速，還可以使用 NVIDIA GPU 實現(xiàn)速度和能效大幅提升。

可移植性

為 99% 以上的 500 強系統(tǒng)（包括基于 NVIDIA GPU 或 x86-64、Arm 或 OpenPOWER CPU 的系統(tǒng)）構(gòu)建和優(yōu)化應(yīng)用。您可以使用嵌入式庫、C++17 并行算法和 OpenACC 指令對您的代碼進(jìn)行 GPU 加速，并確保應(yīng)用完全可移植到其他編譯器和系統(tǒng)。

工作效率

借助能夠讓您快速移植、并行和優(yōu)化 GPU 加速的單一集成套件（包括用于多 GPU 和可擴展計算的行業(yè)標(biāo)準(zhǔn)通信庫，以及用于分析的分析和調(diào)試工具），可以更大限度地提高科學(xué)和工程吞吐量，更大限度地減少編碼時間。

支持您喜歡的編程語言

C++17 并行算法

C++17 并行算法使用標(biāo)準(zhǔn)模板庫（STL）實現(xiàn)可移植的并行編程。NVIDIA HPC SDK C++ 編譯器在 CPU 上支持完整的 C++17，可將并行算法分流至 NVIDIA GPU，支持無指令、雜注或標(biāo)注的 GPU 編程。使用 C++17 并行算法的程序很容易移植到常用 C++ 的 Linux、Windows 和 macOS。

Fortran 2003 編譯器

NVIDIA Fortran 編譯器支持 Fortran 2003，以及 Fortran 2008 的許多功能。它支持在 GPU 上的 OpenACC 和 CUDA Fortran，也支持在 x86-64、Arm 和 OpenPOWER 這些多核 CPU 上的 SIMD 向量化、OpenACC 和 OpenMP。這樣，他就具有在當(dāng)今由 GPU 加速的異構(gòu) HPC 系統(tǒng)上移植和優(yōu)化 Fortran 應(yīng)用所需的功能。

OpenACC 指令

NVIDIA Fortran、C 和 C++ 編譯器支持基于 OpenACC 指令的并行編程，適用于 NVIDIA GPU 和多核 CPU。超過 200 款 HPC 應(yīng)用端口已使用 OpenACC 啟動或啟用，包括 VASP、Gaussian、ANSYS Fluent、WRF 和 MPAS 等量產(chǎn)型應(yīng)用。OpenACC 適用于 GPU 和多核 CPU，是經(jīng)過驗證的性能可移植指令解決方案。

主要功能

GPU 數(shù)學(xué)庫

NVIDIA HPC SDK 包括一套GPU 加速的數(shù)學(xué)庫，適用于計算密集型應(yīng)用。cuBLAS 和 cuSOLVER 庫可提供來自 LAPACK 的各種 BLAS 例程和核心例程的經(jīng) GPU 優(yōu)化的多 GPU 的實施，并盡可能自動使用 NVIDIA GPU Tensor Core。cuFFT 包括用于真實和復(fù)雜數(shù)據(jù)的 GPU 加速的 1D、2D 和 3D FFT 例程，cuSPARSE 為稀疏矩陣提供基礎(chǔ)線性代數(shù)子例程?？梢酝ㄟ^使用 C、C++ 和 Fortran 編寫的 CUDA 和 OpenACC 程序調(diào)用這些庫。

對 Tensor Core 進(jìn)行優(yōu)化

通過NVIDIA GPU Tensor Core，科學(xué)家和工程師能夠使用混合精度或雙精度大幅加速合適的算法。這些 NVIDIA HPC SDK 數(shù)學(xué)庫對 Tensor Core 和多 GPU 節(jié)點進(jìn)行了優(yōu)化，無需多費力編碼，即可提供系統(tǒng)的全部性能潛力。利用 NVIDIA Fortran 編譯器，通過將可轉(zhuǎn)換的數(shù)組內(nèi)聯(lián)函數(shù)自動映射至 cuTENSOR 庫，您可以使用 Tensor Core。

對您的 CPU 進(jìn)行優(yōu)化

異構(gòu) HPC 服務(wù)器使用 GPU 進(jìn)行加速計算，并基于 x86-64、OpenPOWER 或 Arm 指令集架構(gòu)使用多核 CPU。NVIDIA HPC 編譯器和工具在這些 CPU 上受支持，并且所有編譯器優(yōu)化可在支持這些編譯器的 CPU 上完全啟用。借助跨所有受支持系統(tǒng)的統(tǒng)一功能、命令行選項、語言實現(xiàn)、編程模型、工具和庫用戶界面，NVIDIA HPC SDK 可簡化開發(fā)者在各種 HPC 環(huán)境中的體驗。

多 GPU 編程

NVIDIA 集合通信庫（NCCL）使用 MPI 兼容的 all-gather、all-reduce、broadcast、reduce 和 reduce-scatter 例程實現(xiàn)高度優(yōu)化的多 GPU 和多節(jié)點集合通信基元，以利用 HPC 服務(wù)器節(jié)點內(nèi)和跨 HPC 服務(wù)器節(jié)點的所有可用 GPU。NVSHMEM 可實現(xiàn) GPU 顯存的 OpenSHMEM 標(biāo)準(zhǔn)，并提供多 GPU 和多節(jié)點通信基元，這些基元可通過主機 CPU 或 GPU 啟動，也可在 CUDA 內(nèi)核中調(diào)用。

可擴展系統(tǒng)編程

MPI是編程分布式內(nèi)存可擴展系統(tǒng)的標(biāo)準(zhǔn)。NVIDIA HPC SDK 包括基于 Open MPI 的 CUDA-aware MPI 庫，支持 GPUDirect，這樣您可以直接使用遠(yuǎn)程直接數(shù)據(jù)存?。≧DMA）來發(fā)送和接收 GPU 緩沖區(qū)，包括在 CUDA 統(tǒng)一內(nèi)存中分配的緩沖區(qū)。CUDA-aware Open MPI 完全兼容 CUDA C / C++、CUDA Fortran 和 NVIDIA OpenACC 編譯器。

Nsight 性能分析

Nsight 系統(tǒng)可在系統(tǒng)范圍內(nèi)可視化 HPC 服務(wù)器上的應(yīng)用性能，并使您能夠在多核 CPU 和 GPU 中優(yōu)化瓶頸并擴展并行應(yīng)用。Nsight Compute 允許您通過圖形或命令行用戶界面，在交互式分析器中深入探討 GPU 內(nèi)核，以用于 GPU 加速的應(yīng)用，并允許您使用 NVTX API 直接檢測源代碼的區(qū)域，從而確定性能瓶頸。

隨時隨地部署

容器將應(yīng)用及其依賴項捆綁到便攜式虛擬環(huán)境中，從而簡化軟件部署。NVIDIA HPC SDK 包含使用 HPC Container Maker 開發(fā)、分析和部署軟件簡化容器鏡像創(chuàng)建流程的說明。NVIDIA Container Runtime可在幾乎所有容器框架（包括 Docker 和 Singularity）中實現(xiàn)無縫 GPU 支持。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴