生成式 AI、大語(yǔ)言模型和高性能計(jì)算呈指數(shù)級(jí)增長(zhǎng),這對(duì)數(shù)據(jù)中心基礎(chǔ)設(shè)施提出了前所未有的要求。傳統(tǒng)服務(wù)器架構(gòu)難以滿足現(xiàn)代加速計(jì)算在功率密度、散熱需求和快速迭代周期方面的要求。
本文介紹了NVIDIA MGX的優(yōu)勢(shì),這是一種用于加速計(jì)算的模塊化參考架構(gòu),它正在重新定義企業(yè)和云服務(wù)提供商構(gòu)建可擴(kuò)展 AI 工廠的方式。
為何模塊化架構(gòu)如今至關(guān)重要?
借助 NVIDIA MGX,合作伙伴可以像搭積木那樣設(shè)計(jì)多種系統(tǒng),從而節(jié)省開發(fā)成本并縮短產(chǎn)品上市時(shí)間。NVIDIA MGX 支持多代產(chǎn)品以及數(shù)百種 GPU、DPU、CPU、存儲(chǔ)和網(wǎng)絡(luò)的組合方案,適用于 AI、HPC 和數(shù)字孿生等領(lǐng)域。
當(dāng)前推動(dòng) NVIDIA MGX 廣泛應(yīng)用的三大趨勢(shì)包括:
功率密度與散熱:現(xiàn)代 AI 計(jì)算的高要求促使功率密度不斷提高,并推動(dòng)液冷基礎(chǔ)設(shè)施越來越普及。例如,NVIDIA Blackwell GPU 需要單機(jī)架功率最高可達(dá) 120 千瓦的全機(jī)架級(jí)解決方案,來滿足由此產(chǎn)生的多項(xiàng)技術(shù)要求。MGX 通過液冷匯流排和歧管來滿足這些需求,即使在 1400A 的負(fù)載下仍能將冷卻液溫差控制在 15°C 以內(nèi),從而能夠在不影響性能或可靠性的情況下實(shí)現(xiàn)高密度的機(jī)架級(jí)部署。
異構(gòu)工作負(fù)載支持:企業(yè)需要在同一數(shù)據(jù)中心內(nèi)管理日益多樣化的工作負(fù)載,包括使用 72-GPU NVIDIA GB200 NVL72 集群的 AI 后訓(xùn)練、需要測(cè)試時(shí)擴(kuò)展的推理任務(wù)以及數(shù)字孿生模擬。MGX 的模塊化混搭兼容性使企業(yè)能夠針對(duì)特定工作負(fù)載定制基礎(chǔ)設(shè)施,而且無(wú)需重新設(shè)計(jì)整個(gè)機(jī)架。
供應(yīng)鏈敏捷性:MGX 支持在工廠內(nèi)預(yù)集成約 80% 的組件,包括匯流排、冷板和電源線束。這簡(jiǎn)化了構(gòu)建過程,使 ODM 廠商能夠?qū)⒉渴鹬芷趶?12 個(gè)月縮短到 90 天以內(nèi)。
基于這些趨勢(shì),像 MGX 這樣標(biāo)準(zhǔn)化且穩(wěn)定的架構(gòu)能夠確??煽俊⒓嫒莸姆?wù)器部署,使之在不犧牲互操作性的前提下,滿足不斷發(fā)展的性能需求。這種穩(wěn)定性對(duì)企業(yè)實(shí)現(xiàn)基礎(chǔ)設(shè)施投資的前瞻性布局至關(guān)重要,同時(shí)還保留了適應(yīng)新興工作負(fù)載和技術(shù)的靈活性。
龐大的 MGX 生態(tài)系統(tǒng)讓企業(yè)可以靈活地選購(gòu)多樣化的組件并避免供應(yīng)商鎖定,這能夠最大限度地降低投資風(fēng)險(xiǎn)、縮短交貨時(shí)間并減少不確定性。由于合作伙伴能夠自由地在廣泛的認(rèn)證組件中進(jìn)行選擇,MGX 使組織在優(yōu)化其數(shù)據(jù)中心構(gòu)建時(shí)能夠降低成本、提高性能和供應(yīng)鏈彈性。
基于標(biāo)準(zhǔn)的模塊化 MGX 設(shè)計(jì)簡(jiǎn)化了集成過程,消除了對(duì)定制解決方案的需求,從而實(shí)現(xiàn)了快速、成本可控的部署和更具靈活性的擴(kuò)展。這種方法不僅加快了上市時(shí)間,還簡(jiǎn)化了后續(xù)維護(hù)和升級(jí),使企業(yè)能夠根據(jù)需求增長(zhǎng)和技術(shù)發(fā)展情況高效地?cái)U(kuò)展 AI 工廠。
MGX 機(jī)架系統(tǒng)內(nèi)部構(gòu)造
NVIDIA MGX 機(jī)架系統(tǒng)圍繞兩大核心模塊構(gòu)建:計(jì)算托盤和 NVLink 交換機(jī)托盤。每個(gè)計(jì)算托盤都配備了強(qiáng)大的 CPU 和 GPU 組合,例如 NVIDIA Grace CPU 與 NVIDIA Blackwell GPU 的搭配。它們?yōu)?AI 訓(xùn)練、推理和模擬工作負(fù)載提供核心加速計(jì)算性能。NVLink 交換機(jī)托盤則提供高速、低延遲的互連結(jié)構(gòu),將這些計(jì)算托盤連接在一起,實(shí)現(xiàn) GPU 到 GPU 的無(wú)縫通信和整個(gè)機(jī)架的高效擴(kuò)展。
然而,完整的 MGX 機(jī)架系統(tǒng)還遠(yuǎn)不止計(jì)算和交換機(jī)托盤。為了滿足現(xiàn)代 AI 工廠對(duì)規(guī)模和效率的運(yùn)行要求,該系統(tǒng)還依賴強(qiáng)大的機(jī)械、電氣和管道(冷卻)基礎(chǔ)設(shè)施,包括:
機(jī)械組件:模塊化 MGX 機(jī)架本身為高密度數(shù)據(jù)中心部署提供了所需的結(jié)構(gòu)完整性和可維護(hù)性。電源架支架將電源架固定在機(jī)架內(nèi),而滑軌則便于機(jī)架式設(shè)備的安裝和維護(hù)。
電氣組件:在電力輸送與連接方面,MGX 54V 匯流排和 MGX 1400A 匯流排在整個(gè)機(jī)架內(nèi)高效地分配電力,支持 HPC 負(fù)載。33 kW 電源架為系統(tǒng)提供充足的電力,而 MGX 電源線束可以靈活地連接電源架和匯流排。MGX 高速電纜保障高速數(shù)據(jù)傳輸,確保計(jì)算托盤和交換機(jī)托盤之間保持最優(yōu)的通信。
管道或冷卻組件:MGX 冷板為 GPU 提供高效液冷,維持其最佳運(yùn)行溫度。MGX 44RU 歧管用于管理機(jī)架內(nèi)的冷卻液分配。MGX NVQD(NVIDIA 快換接頭)和 MGX UQD(通用快換接頭)等快換接頭實(shí)現(xiàn)液冷管線的快速安全連接,簡(jiǎn)化維護(hù)并最大限度地減少停機(jī)時(shí)間。
這種模塊化方法可以顯著節(jié)省時(shí)間,因?yàn)闃?biāo)準(zhǔn)組件可以在工廠預(yù)安裝,并通過即插即用的電源和冷卻裝置在現(xiàn)場(chǎng)集成。
NVIDIA GB200 NVL72 和 GB300 NVL72 系統(tǒng)中的 MGX 組件是基礎(chǔ)架構(gòu),用于管理功率密度和熱負(fù)載,使這些液冷機(jī)架級(jí)平臺(tái)能夠提供前所未有的 AI 性能。通過將先進(jìn)的液冷 MGX 架構(gòu)集成到 Blackwell 計(jì)算節(jié)點(diǎn)中,NVIDIA 滿足了 GB200 NVL72 的單機(jī)架 120 千瓦的能耗需求,而 GB300 NVL72 的 72 個(gè) Blackwell Ultra GPU 則需要更高的散熱協(xié)調(diào)能力,以實(shí)現(xiàn)其高達(dá) 50 倍的 AI 推理輸出提升。
這種設(shè)計(jì)理念需要機(jī)械工程團(tuán)隊(duì)(優(yōu)化冷卻液分配)、電源專家(高效電壓調(diào)節(jié))與制造合作伙伴(實(shí)現(xiàn)前端可維護(hù)性)之間的緊密協(xié)作。所有這些都通過 NVIDIA 的芯片級(jí) NVLink 互連技術(shù)統(tǒng)一起來,該技術(shù)將 36 個(gè) Grace CPU 和 72-144 個(gè) GPU 綁定到一個(gè)統(tǒng)一的計(jì)算域中。這種聯(lián)合設(shè)計(jì)的解決方案比前代 NVIDIA Hopper 集群的能效提升了 25 倍,展現(xiàn)了 MGX 的系統(tǒng)集成如何將原始算力轉(zhuǎn)化為可擴(kuò)展的 AI 基礎(chǔ)設(shè)施。
變革 AI 工廠的設(shè)計(jì)與部署
NVIDIA MGX 為整個(gè)數(shù)據(jù)中心生態(tài)系統(tǒng)帶來了切實(shí)的好處。
對(duì)于系統(tǒng)制造商來說,通過共享參考設(shè)計(jì),MGX 使每個(gè)平臺(tái)的研發(fā)成本降低了 200 萬(wàn)至 400 萬(wàn)美元,并使團(tuán)隊(duì)能夠一次性認(rèn)證整個(gè) NVIDIA 軟件棧,其中包括 NVIDIA CUDA-X、NVIDIA AI Enterprise 和 NVIDIA Omniverse。
對(duì)于數(shù)據(jù)中心運(yùn)營(yíng)商來說,能夠使用一致的電源和冷卻接口,實(shí)現(xiàn)從 8-GPU 節(jié)點(diǎn)無(wú)縫擴(kuò)展到 144-GPU 機(jī)架,同時(shí)由于電源效率高達(dá) 94% 且冷卻管道系統(tǒng)可重復(fù)使用,總體擁有成本降低了 50%。
對(duì)于 AI 工作負(fù)載來說,MGX 使各組織能夠利用 NVLink 交換機(jī)在 72-GPU 的統(tǒng)一的計(jì)算域上訓(xùn)練參數(shù)量高達(dá) 1.8 萬(wàn)億的模型,并在 72 節(jié)點(diǎn)機(jī)架上部署延遲波動(dòng)小于 5 毫秒的推理集群。
開始使用
NVIDIA MGX 不僅僅是一項(xiàng)機(jī)架標(biāo)準(zhǔn),更是 AI 工廠時(shí)代的基礎(chǔ)。隨著 200 多家生態(tài)系統(tǒng)合作伙伴已采用 MGX 組件,企業(yè)由此獲得了通往未來 exascale 級(jí) AI 的路徑。隨著 NVIDIA Blackwell、NVIDIA Rubin 等不斷突破計(jì)算邊界,MGX 模塊化架構(gòu)確保了 AI 工廠能夠隨著芯片創(chuàng)新的不斷發(fā)展,并通過模塊化升級(jí)路徑來保護(hù)數(shù)據(jù)中心投資。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5594瀏覽量
109723 -
交換機(jī)
+關(guān)注
關(guān)注
23文章
2904瀏覽量
104466 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
18文章
5651瀏覽量
75015 -
AI
+關(guān)注
關(guān)注
91文章
39793瀏覽量
301382
原文標(biāo)題:NVIDIA MGX 為 AI 工廠奠定堅(jiān)實(shí)的模塊化基礎(chǔ)
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
NVIDIA Spectrum-X以太網(wǎng)硅光技術(shù)助力AI工廠網(wǎng)絡(luò)創(chuàng)新
NVIDIA Omniverse基于Container的部署推流方案
NVIDIA擴(kuò)大與微軟合作推動(dòng)AI超級(jí)工廠建設(shè)
NVIDIA CEO黃仁勛暢談AI時(shí)代最新藍(lán)圖
三星攜手NVIDIA 以全新AI工廠引領(lǐng)全球智能制造轉(zhuǎn)型
NVIDIA IGX Thor 機(jī)器人處理器將實(shí)時(shí)物理 AI 引入工業(yè)和醫(yī)療邊緣場(chǎng)景
OpenAI和NVIDIA宣布達(dá)成合作,部署10吉瓦NVIDIA系統(tǒng)
Cadence 借助 NVIDIA DGX SuperPOD 模型擴(kuò)展數(shù)字孿生平臺(tái)庫(kù),加速 AI 數(shù)據(jù)中心部署與運(yùn)營(yíng)
NVIDIA硅光技術(shù)助力邁向百萬(wàn)GPU AI工廠
如何本地部署NVIDIA Cosmos Reason-1-7B模型
NVIDIA計(jì)劃打造全球首個(gè)工業(yè)AI云平臺(tái)
NVIDIA攜手合作伙伴提升AI智能體的交互能力
NVIDIA擴(kuò)展適用于AI工廠數(shù)字孿生的Omniverse Blueprint
NVIDIA驅(qū)動(dòng)的AI工廠正在重新定義數(shù)據(jù)中心
NVIDIA MGX變革AI工廠設(shè)計(jì)與部署
評(píng)論