量子電路模擬對(duì)于開發(fā)量子計(jì)算機(jī)的應(yīng)用程序和算法至關(guān)重要。由于已知量子計(jì)算算法和用例的破壞性,政府、企業(yè)和學(xué)術(shù)界的量子算法研究人員正在開發(fā)新的量子算法,并在更大的量子系統(tǒng)上進(jìn)行基準(zhǔn)測(cè)試。
在沒有大規(guī)模糾錯(cuò)量子計(jì)算機(jī)的情況下,開發(fā)這些算法的最佳方法是通過量子電路模擬。量子電路模擬需要大量計(jì)算, GPU 是計(jì)算量子態(tài)的天然工具。 為了模擬更大的量子系統(tǒng),有必要將計(jì)算分布在多個(gè) GPU 和多個(gè)節(jié)點(diǎn)上,以充分利用超級(jí)計(jì)算機(jī)的計(jì)算能力。
NVIDIA cuQuantum 是一個(gè)軟件開發(fā)工具包( SDK ),使用戶可以使用 GPU 輕松加速和縮放量子電路模擬,為探索量子優(yōu)勢(shì)提供了新的能力。
此 SDK 包括最近發(fā)布的 NVIDIA DGX cuQuantum Appliance ,這是一個(gè)支持部署的軟件容器,具有多 GPU 狀態(tài)向量模擬支持。通用多 GPU API 現(xiàn)在也可在 cuStateVec 中使用,以便輕松集成到任何模擬器中。對(duì)于張量網(wǎng)絡(luò)模擬, cuQuantum cuTensorNet library 提供的切片 API 可實(shí)現(xiàn)分布在多個(gè) GPU 或多個(gè)節(jié)點(diǎn)上的加速?gòu)埩烤W(wǎng)絡(luò)收縮。這使得用戶可以利用 DGX A100 系統(tǒng)的近線性強(qiáng)伸縮性。
NVIDIA cuQuantum SDK 具有狀態(tài)向量和張量網(wǎng)絡(luò)方法庫(kù)。這篇文章主要關(guān)注用于多節(jié)點(diǎn)狀態(tài)向量模擬的 cuStateVec 和 DGX cuQuantum 設(shè)備 。如果您有興趣了解更多關(guān)于 cuTensorNet 和張量網(wǎng)絡(luò)方法的信息,請(qǐng)參見 使用 NVIDIA cuTensorNet 擴(kuò)大 Quantum Circuit Simulation 。
什么是多節(jié)點(diǎn)、多 GPU 狀態(tài)矢量仿真
節(jié)點(diǎn)是由緊密互連的處理器組成的單個(gè)封裝單元,這些處理器經(jīng)過優(yōu)化,可以在保持機(jī)架就緒外形的同時(shí)協(xié)同工作。多節(jié)點(diǎn)多 GPU 狀態(tài)向量模擬利用了一個(gè)節(jié)點(diǎn)內(nèi)的多個(gè) GPU 和 GPU 的多個(gè)節(jié)點(diǎn),以提供比其他方式更快的解決時(shí)間和更大的問題規(guī)模。
DGX 使用戶能夠利用高內(nèi)存、低延遲和高帶寬。 DGX H100 system 由八個(gè) H100 張量芯 GPU 組成,利用了 第四代 NVLink 和第三代 NVSwitch 。該節(jié)點(diǎn)是量子電路模擬的發(fā)電站。
在 DGX A100 節(jié)點(diǎn)上運(yùn)行,所有八個(gè) GPU 上都有啟用 NVIDIA 多 GPU 的 DGX cuQuantum Appliance ,對(duì)于三種常見的量子計(jì)算算法:量子傅里葉變換、肖氏算法和 Sycamore Supremacy 電路,在雙 64 核 AMD EPYC 7742 處理器上的速度提高了 70 到 290 倍。這使得用戶能夠使用單個(gè) DGX A100 節(jié)點(diǎn)(八個(gè) GPU ),通過全狀態(tài)矢量方法模擬多達(dá) 36 個(gè)量子比特。圖 1 所示的結(jié)果比我們上次宣布此功能的基準(zhǔn)測(cè)試高出 4.4 倍,這是因?yàn)槲覀兊膱F(tuán)隊(duì)已經(jīng)實(shí)現(xiàn)了只使用軟件的增強(qiáng)。

圖 1.DGX cuQuantum Appliance 多 GPU 加速超過最先進(jìn)的雙插槽 CPU 服務(wù)器
NVIDIA cuStateVec 團(tuán)隊(duì)深入研究了除單個(gè)節(jié)點(diǎn)內(nèi)的多個(gè) GPU 之外,利用多個(gè)節(jié)點(diǎn)的性能方法。因?yàn)榇蠖鄶?shù)門應(yīng)用程序都是完全并行的操作,所以節(jié)點(diǎn)內(nèi)和跨節(jié)點(diǎn)的 GPU 可以被編排以進(jìn)行分而治之。
在模擬過程中,狀態(tài)向量被分割并分布在 GPU 之間,每個(gè) GPU 可以對(duì)其狀態(tài)向量的一部分并行應(yīng)用一個(gè)門。在許多情況下,這可以在本地處理;然而,高階量子比特的門應(yīng)用需要分布式狀態(tài)向量之間的通信。
一種典型的方法是首先對(duì)量子比特重新排序,然后在每個(gè) GPU 中應(yīng)用門,而不訪問其他 GPU 或節(jié)點(diǎn)。這種重新排序本身需要設(shè)備之間的數(shù)據(jù)傳輸。為了有效地做到這一點(diǎn),高互連帶寬變得極其重要。在多個(gè)節(jié)點(diǎn)上有效地利用這種并行性是非常重要的。
介紹多節(jié)點(diǎn) DGX cuQuantum Appliance
這里給出了基于性能和任意尺度狀態(tài)矢量的量子電路模擬的答案。 NVIDIA 很高興宣布新 DGX cuQuantum Appliance 提供的多節(jié)點(diǎn)、多 GPU 功能。在我們的下一版本中,任何 cuQuantum 容器用戶都將能夠快速、輕松地利用 IBM Qiskit 前端在世界上最大的 NVIDIA 系統(tǒng)上模擬量子電路。
cuQuantum 的任務(wù)是使盡可能多的用戶能夠輕松加速和縮放量子電路模擬。為此, cuQuantum 團(tuán)隊(duì)正在努力將 NVIDIA 多節(jié)點(diǎn)方法生產(chǎn)成 API ,該 API 將于明年初正式上市。通過這種方法,您將能夠利用更廣泛的基于 NVIDIA GPU 的系統(tǒng)來(lái)擴(kuò)展?fàn)顟B(tài)向量量子電路模擬。
NVIDIA 多節(jié)點(diǎn) DGX cuQuantum 設(shè)備正處于開發(fā)的最后階段,您很快就能利用 NVIDIA DGX SuperPOD 系統(tǒng) 的最佳性能。這將作為 NGC 托管的容器映像提供,您可以在 Docker 和幾行代碼的幫助下快速部署。
NVIDIA DGX H100 擁有所有 DGX 系統(tǒng)中最快的 I / O 架構(gòu),是大型 AI 群集(如 NVIDIA -DGX SuperPOD )的基礎(chǔ)構(gòu)建塊,是可擴(kuò)展 AI 的企業(yè)藍(lán)圖,現(xiàn)在是量子電路仿真基礎(chǔ)設(shè)施。 DGX H100 中的八臺(tái) NVIDIA H100 GPU 使用新的高性能第四代 NVLink 技術(shù),通過四臺(tái)第三代 NVSwitch 進(jìn)行互連。
第四代 NVLink 技術(shù)提供了上一代 1.5 倍的通信帶寬,比 PCIe Gen5 快 7 倍。它提供了高達(dá) 7.2 TB / s 的 GPU 總吞吐量至 – GPU ,比上一代 DGX A100 提高了近 1.5 倍。
DGX H100 系統(tǒng)與隨附的八個(gè) NVIDIA ConnectX-7 InfiniBand / Ethernet 適配器(每個(gè)適配器都以 400 GB / s 的速度運(yùn)行)一起,提供了強(qiáng)大的高速結(jié)構(gòu),可在分布于多個(gè)節(jié)點(diǎn)的狀態(tài)矢量之間的全局通信中節(jié)省開銷。多節(jié)點(diǎn)、多 GPU cuQuantum 與大規(guī)模 GPU 加速計(jì)算相結(jié)合,利用最先進(jìn)的網(wǎng)絡(luò)硬件和軟件優(yōu)化,這意味著 DGX H100 系統(tǒng)可以擴(kuò)展到數(shù)百或數(shù)千個(gè)節(jié)點(diǎn),以應(yīng)對(duì)最大的挑戰(zhàn),例如將全狀態(tài)矢量量子電路模擬擴(kuò)展到 50 個(gè)量子比特以上。
為了對(duì)這項(xiàng)工作進(jìn)行基準(zhǔn)測(cè)試,多節(jié)點(diǎn) DGX cuQuantum Appliance 運(yùn)行在 NVIDIA Selene Supercomputer 上,這是 NVIDIA DGX SuperPOD 系統(tǒng)的參考體系結(jié)構(gòu)。截至 2022 年 6 月, Selene 在超級(jí)計(jì)算系統(tǒng) TOP500 榜單中排名第八 ,以 63.5 petaflops 的速度執(zhí)行高性能 Linpack ( HPL )基準(zhǔn)測(cè)試,并以 24.0 giaflops /瓦特的速度在 Green500 名單上排名第 22 。
NVIDIA 利用多節(jié)點(diǎn) DGX cuQuantum Appliance 運(yùn)行基準(zhǔn)測(cè)試: Quantum Volume 、 Quantum 近似優(yōu)化算法( QAOA )和 Quantum 相位估計(jì)。量子體積電路的深度為 10 和 30 。 QAOA 是一種常用算法,用于解決相對(duì)而言近期量子計(jì)算機(jī)上的組合優(yōu)化問題。我們用兩個(gè)參數(shù)運(yùn)行它。
在前面的算法中演示了弱標(biāo)度和強(qiáng)標(biāo)度。很明顯,擴(kuò)展到像 NVIDIA DGX SuperPOD 這樣的超級(jí)計(jì)算機(jī)對(duì)于加快解決時(shí)間和擴(kuò)展相空間研究人員可以利用狀態(tài)矢量量子電路模擬技術(shù)探索的相空間都很有價(jià)值。

圖 2.DGX cuQuantum Appliance 多節(jié)點(diǎn)弱擴(kuò)展性能,從 32 到 40 量子比特
我們正在通過更新的 DGX cuQuantum Appliance 進(jìn)一步幫助用戶實(shí)現(xiàn)規(guī)?;?。通過引入多節(jié)點(diǎn)功能,我們?cè)试S用戶在一個(gè) GPU 上移動(dòng) 32 個(gè)量子比特,在一個(gè) NVIDIA 安培架構(gòu)節(jié)點(diǎn)上移動(dòng) 36 個(gè)量子比特。我們用 32 個(gè) DGX A100 節(jié)點(diǎn)模擬了總共 40 個(gè)量子比特。用戶現(xiàn)在可以根據(jù)系統(tǒng)配置進(jìn)一步擴(kuò)展,軟件限制為 56 量子位或數(shù)百萬(wàn) DGX A100 節(jié)點(diǎn)。我們?cè)?NVIDIA Hopper GPU 上的其他初步測(cè)試表明,這些數(shù)字在我們的下一代架構(gòu)上會(huì)更好。
我們還衡量了我們多節(jié)點(diǎn)能力的強(qiáng)大擴(kuò)展性。為了簡(jiǎn)單起見,我們專注于 Quantum Volume 。圖 3 描述了當(dāng)我們多次改變 GPU 的數(shù)量來(lái)解決同一問題時(shí)的性能。與最先進(jìn)的雙插槽服務(wù)器 CPU 相比,在利用 16 個(gè) DGX A100 節(jié)點(diǎn)時(shí),我們獲得了 320 到 340 倍的加速。這也比以前最先進(jìn)的量子體積實(shí)現(xiàn)快 3.5 倍(對(duì)于只有兩個(gè) DGX A100 節(jié)點(diǎn)的 36 個(gè)量子比特,深度= 10 )。當(dāng)添加更多節(jié)點(diǎn)時(shí),這種加速會(huì)變得更加顯著。

圖 3.與最先進(jìn)的 CPU 服務(wù)器相比, DGX cuQuantum Appliance 多節(jié)點(diǎn)加速 32 qubit Quantum Volume
在最大的 NVIDIA 系統(tǒng)上模擬和縮放量子電路
NVIDIA 的 cuQuantum 團(tuán)隊(duì)正在將狀態(tài)向量模擬擴(kuò)展到多節(jié)點(diǎn)、多 GPU 。這使得終端用戶能夠?qū)Ρ纫酝魏螘r(shí)候都大的全狀態(tài)矢量進(jìn)行量子電路模擬。 cuQuantum 不僅支持?jǐn)U展,還支持性能,顯示節(jié)點(diǎn)之間的擴(kuò)展能力較弱,擴(kuò)展能力較強(qiáng)。
此外, cuQuantum 推出了第一個(gè)由 cuQuantom 支持的 IBM Qiskit 映像。在我們的下一個(gè)版本中,您將能夠拉動(dòng)這個(gè)容器,從而使用這個(gè)流行的框架更容易、更快地?cái)U(kuò)展量子電路模擬。
關(guān)于作者
Tom Lubowe 是 NVIDIA 的量子計(jì)算產(chǎn)品經(jīng)理。 Tom 擅長(zhǎng)理解用戶需求,并將其與技術(shù)能力相協(xié)調(diào)。在加入之前,他曾在 Xanadu 、 Rigetti 等量子計(jì)算硬件初創(chuàng)公司和其他量子機(jī)器學(xué)習(xí)軟件初創(chuàng)公司擔(dān)任業(yè)務(wù)開發(fā)和產(chǎn)品管理職務(wù)。在致力于將量子計(jì)算帶給用戶之前,他曾在 SEI Investments 從事 FinTech 產(chǎn)品方面的工作。
Takuma Yamaguchi 是 NVIDIA 的 CUDA 數(shù)學(xué)庫(kù)小組的高級(jí)軟件工程師,在那里他致力于 cuStateVec 中量子算法的優(yōu)化。他擁有東京大學(xué)土木工程博士學(xué)位。
Shinya Morino 是NVIDIA 高級(jí)解決方案架構(gòu)師,隸屬于NVIDIA 人工智能技術(shù)中心( NVAITC )。他已經(jīng)在 NVAITC 中原型化了一個(gè) GPU 加速狀態(tài)向量模擬器,并正在利用他的知識(shí)推動(dòng) cuStateVec 的開發(fā)。新亞擁有日本東京大學(xué)的工程學(xué)博士學(xué)位。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5614瀏覽量
109864 -
gpu
+關(guān)注
關(guān)注
28文章
5207瀏覽量
135598 -
服務(wù)器
+關(guān)注
關(guān)注
14文章
10274瀏覽量
91564
發(fā)布評(píng)論請(qǐng)先 登錄
NVIDIA DGX Spark助力高等教育領(lǐng)域重大項(xiàng)目
NVIDIA NVQLink技術(shù)被全球十余家超級(jí)計(jì)算中心廣泛采用
NVIDIA在ISC 2025分享最新超級(jí)計(jì)算進(jìn)展
NVIDIA DGX Spark助力構(gòu)建自己的AI模型
NVIDIA DGX Spark快速入門指南
IQM與NVIDIA攜手開展NVQLink合作,推動(dòng)可擴(kuò)展量子糾錯(cuò)技術(shù)發(fā)展
NVIDIA DGX Spark新一代AI超級(jí)計(jì)算機(jī)正式交付
NVIDIA DGX Spark桌面AI計(jì)算機(jī)開啟預(yù)訂
NVIDIA助力全球最大量子研究超級(jí)計(jì)算機(jī)
NVIDIA發(fā)布AI優(yōu)先DGX個(gè)人計(jì)算系統(tǒng)
Multisim模擬電路仿真教程
NVIDIA助力解決量子計(jì)算領(lǐng)域重大挑戰(zhàn)
NVIDIA GTC2025 亮點(diǎn) NVIDIA推出 DGX Spark個(gè)人AI計(jì)算機(jī)
NVIDIA 宣布推出 DGX Spark 個(gè)人 AI 計(jì)算機(jī)
用NVIDIA DGX cuQuantum設(shè)備實(shí)現(xiàn)超級(jí)計(jì)算規(guī)模的量子電路仿真
評(píng)論