2022年3月,NVIDIA發(fā)布了首款數(shù)據(jù)中心CPU Grace、新一代高性能計算GPU Hopper,同時利用它們打造了兩顆“超級芯片”(Super Chip),一是Grace CPU二合一,二是Grace CPU+Hopper GPU二合一,看起來都極為酷炫。
現(xiàn)在,足足14個月過去了,NVIDIA終于宣布,GH200 Grace Hopper超級芯片已經(jīng)全面投產(chǎn),將為復雜AI、HPC工作負載提供澎湃的動力。
再加上Grace CPU、Hopper GPU、Ada Lovelace GPU、BlueField DPU等全套系統(tǒng)方案,NVIDIA現(xiàn)在已經(jīng)有400多種配置,可滿足市場對生成式AI的激增需求。
歐洲和美國的超大規(guī)模云服務商、超算中心,將會成為接入GH200系統(tǒng)的首批客戶。
同時,黃仁勛還公布了Grace Hopper的更多細節(jié),尤其是它的CPU、GPU之間使用NVLink-C2C互連技術,總帶寬高達900GB/s,相比傳統(tǒng)的PCIe 5.0通道超出足足7倍,能夠滿足要求最苛刻的生成式AI和HPC應用,功耗也降低了超過80%。
Grace Hopper是一塊CPU+GPU合體的超級芯片,CPU是NVIDIA自研的72核處理器,Neoverse V2內核,擁有480GB LPDDR5內存,512GB/s帶寬。
GPU部分是H100,F(xiàn)P64性能34TFLOPS,但更強的是INT8性能,AI運算能力達到了3958TFLOPS,帶96GB HBM3內存。
同時,NVIDIA發(fā)布了針對AI推出的大內存DGX GH200超算系統(tǒng),配備了256個Grace Hopper芯片,總計1.8萬CPU核心,144TB內存,相比之前漲了500倍。
AI運算對內存容量的要求更高,所以DGX GH200通過最新的NVLink、NVLink Switch等技術連接了256塊Grace Hooper超級芯片,實現(xiàn)了極為夸張的性能及內存。
GH200總計有256塊Grace Hooper芯片,因此總計18432個CPU核心,144TB HBM3內存,AI性能達到了1 exaFLOPS,也就是100億億次。
這是什么概念?當前最強的TOP500超算也就是百億億次性能,只不過這個性能是HPC計算的,NVIDIA的是百億億次AI性能。

為了讓256個超級芯片互聯(lián),GH200還使用了256塊單口400Gb/s InfiniBand互聯(lián)芯片,256個雙口200Gb/s InfiniBand芯片,還有96組L1 NVLink、36組L2 NVLink開關等等,設計非常復雜。
NVIDIA表示,谷歌、Meta及微軟是首批獲得DGX H200系統(tǒng)的公司,后續(xù)他們還會開放給更多客戶,運行客戶定制。
不過DGX H200還不是最強的,NVIDIA今年晚些時候會推出名為NVIDIA Helios的AI超算系統(tǒng),由4組GH200組成,總計1024個Grace Hooper超級芯片,576TB HBM內存。
黃仁勛還向傳統(tǒng)的CPU服務器集群發(fā)起“挑戰(zhàn)”,認為在人工智能和加速計算這一未來方向上,GPU服務器有著更為強大的優(yōu)勢。
根據(jù)黃仁勛在演講上展示的范例,訓練一個LLM大語言模型,將需要960個CPU組成的服務器集群,這將耗費大約1000萬美元(約合人民幣7070萬元),并消耗11千兆瓦時的電力。

相比之下,同樣以1000萬美元的成本去組建GPU服務器集群,將以僅3.2千兆瓦時的電力消耗,訓練44個LLM大模型。

如果同樣消耗11千兆瓦時的電量,那么GPU服務器集群能夠實現(xiàn)150倍的加速,訓練150個LLM大模型,且占地面積更小。
而當用戶僅僅想訓練一個LLM大模型時,則只需要一個40萬美元左右,消耗0.13千兆瓦時電力的GPU服務器即可。
換言之,相比CPU服務器,GPU服務器能夠以4%的成本和1.2%的電力消耗來訓練一個LLM,這將帶來巨大的成本節(jié)省。
審核編輯 :李倩
-
NVIDIA
+關注
關注
14文章
5594瀏覽量
109759 -
gpu
+關注
關注
28文章
5194瀏覽量
135483 -
超級芯片
+關注
關注
0文章
39瀏覽量
9318
原文標題:領先幾光年!NVIDIA CPU+GPU超級芯片終于量產(chǎn)
文章出處:【微信號:hdworld16,微信公眾號:硬件世界】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程
NVIDIA RTX PRO 5000 Blackwell GPU的深度評測
在Python中借助NVIDIA CUDA Tile簡化GPU編程
NVIDIA擴大與微軟合作推動AI超級工廠建設
NVIDIA RTX PRO 2000 Blackwell GPU性能測試
NVIDIA在ISC 2025分享最新超級計算進展
NVIDIA推出NVQLink高速互連架構
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
NVIDIA CPU+GPU超級芯片終于量產(chǎn)
評論