電子發(fā)燒友網(wǎng)報道(文/周凱揚)在現(xiàn)代數(shù)據(jù)中心架構(gòu)中,網(wǎng)絡(luò)和計算設(shè)備都部署在兩層甚至三層的互聯(lián)矩陣中,與傳統(tǒng)的多層架構(gòu)不同,數(shù)據(jù)中心的交換矩陣促成了服務(wù)器架構(gòu)的扁平化,進一步縮短了數(shù)據(jù)中心內(nèi)不同端點之間的距離,提高效率的同時,也降低了延遲。
可以說交換矩陣技術(shù)決定了數(shù)據(jù)中心的擴展性,相較傳統(tǒng)的網(wǎng)絡(luò)交換矩陣而言,如今的復(fù)雜計算交換矩陣,也就是我們所說的芯片外互聯(lián)技術(shù),更是提高算力的重要解決方案之一。
英偉達NVLink和NV Switch
與其他公司采用的通用交換矩陣技術(shù)不同,英偉達憑借其在互聯(lián)交換技術(shù)上的積累,再結(jié)合收購Mellanox獲得的技術(shù),為其GPU產(chǎn)品打造并迭代了NVLink和NVSwitch技術(shù)。
以目前的英偉達GPU服務(wù)器集群為例,集群內(nèi)的GPU通過NVSwitch交換機,以NVLink來實現(xiàn)互相通信。如今NVLink技術(shù)已經(jīng)發(fā)展至第五代,NVSwitch也已經(jīng)發(fā)展至第四代NVLink Switch。
隨著GB200的出現(xiàn),英偉達已經(jīng)實現(xiàn)了單Blackwell GPU支持18個NVLink連接的可拓展性,也使得總帶寬達到了1.8TB/s,是第四代NVLink技術(shù)的兩倍,更是遠超PCIe 5.0。
單個GB200 NVL72服務(wù)器更是可以集成72個GB200 GPU,依靠NVLink Switch實現(xiàn)130TB/s的總帶寬,這樣的可拓展性對于提高現(xiàn)在的大模型訓(xùn)練規(guī)模和速度來說尤為重要,NVL72就可以普遍用于訓(xùn)練萬億參數(shù)級別的大模型。
AMD Infinity Fabric
雖然很多AI加速器初創(chuàng)企業(yè)或英偉達的競爭對手,都會鼓吹單個GPU或加速器的性能本身,但如果不能從擴展性上縮短差距,也很難被云服務(wù)廠商和數(shù)據(jù)中心大規(guī)模商用。以英偉達的老對手AMD為例,他們的MI300系列在交換矩陣的支持上由128鏈路組成,其中64個支持PCIe 5.0和自研的Infinity Fabric,另外64個則僅支持Infinity Fabric。
在單芯片或單個服務(wù)器上的性能可能會更加優(yōu)異,但一旦擴展至數(shù)百個服務(wù)器的規(guī)模下,就很難繼續(xù)保持優(yōu)勢了。AMD也很清楚自己需要縮小這一差距,但僅僅依靠自身在Infinity Fabric交換矩陣上的積累,很難打通整個生態(tài),所以AMD選擇了合作開放一途。
早在去年AMD的Advancing AI大會上,AMD就宣布向生態(tài)合作伙伴開放自己的Infinity Fabric IP(XGMI),呼吁別的交換芯片廠商對Infinity Fabric加以支持。比如博通就表示,其下一代PCIe交換芯片,除了支持PCIe、CXL之外,也將支持AMD的Infinity Fabric。
然而這里指的并不是今年下半年才送樣的PCIe 6.0交換芯片,Atlas 3系列,而是PCIe 7.0的Atlas 4系列。由此看來,要想真正見到第三方交換矩陣方案支持AMD的Infinity Fabric,還得等到PCIe 7.0正式面世。
寫在最后
對于市面上其他的AI加速器而言,開放標準或已有的商用標準是他們的最好選擇,比如PCIe、CXL等等。除此之外,據(jù)了解一些與緩存一致性相關(guān)的專利即將過期,或許對于一些初創(chuàng)公司來說,未來會有開源的高端交換互聯(lián)方案供他們選擇。
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
18文章
5645瀏覽量
75003
發(fā)布評論請先 登錄
國產(chǎn)數(shù)據(jù)中心AI芯片企業(yè)一覽
1分鐘帶你了解數(shù)據(jù)中心供電架構(gòu) #電子元器件 #數(shù)據(jù)中心 #供電架構(gòu)
數(shù)據(jù)中心UPS并機方案:公用電池組的優(yōu)缺點深度分析
華為數(shù)據(jù)中心交換機獲得黃鶴實驗室首批安全公測最高等級
產(chǎn)品彩頁-CX-N系列數(shù)據(jù)中心交換機
華為榮獲2025年上半年數(shù)據(jù)中心交換機中國市場第一
提升AI數(shù)據(jù)服務(wù)器交換機性能與效率的關(guān)鍵:永銘電容的應(yīng)用
PCIe協(xié)議分析儀在數(shù)據(jù)中心中有何作用?
中型數(shù)據(jù)中心中的差分晶體振蕩器應(yīng)用與匹配方案
華為連續(xù)9年穩(wěn)居中國數(shù)據(jù)中心交換機市場第一
小型數(shù)據(jù)中心晶振選型關(guān)鍵參數(shù)全解
單芯片性能不抵拓展性,數(shù)據(jù)中心的交換矩陣
評論