當(dāng)前,許多超大規(guī)模廠商正在競(jìng)相構(gòu)建大型 GPU 集群,以適應(yīng)GenAI訓(xùn)練工作負(fù)載。本文探討了針對(duì)GenAI訓(xùn)練工作負(fù)載進(jìn)行優(yōu)化的各種網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),如Meta的Rail-Only 拓?fù)浜虳ragonfly拓?fù)?,以及網(wǎng)絡(luò)中可能存在的一些擁塞點(diǎn)和各種擁塞控制解決方案。
01GPU Fabric拓?fù)?/strong>
有兩種構(gòu)建 GPU 拓?fù)涞姆椒ǎ?/p>
# Fat-tree CLOS 具有非阻塞的any-to-any連接,不依賴于正在訓(xùn)練的模型。
這是公有云提供商的首選方案,其 GPU 集群可用于訓(xùn)練各種模型,包括具有大型嵌入表的推薦模型,這些嵌入表可跨所有 GPU 上創(chuàng)建 all-to-all 通信。然而,為成千上萬(wàn)的 GPU 提供非阻塞連接是非常昂貴的,與扁平的spine/leaf拓?fù)湎啾?,它需要更?a href="http://m.makelele.cn/v/tag/1392/" target="_blank">交換機(jī)和更多的跳數(shù)。這些拓?fù)涓锌赡艹霈F(xiàn)擁塞和長(zhǎng)尾延遲。
# 針對(duì)特定訓(xùn)練工作負(fù)載優(yōu)化的拓?fù)洹?/strong>
這種方法在為 LLM 訓(xùn)練工作負(fù)載構(gòu)建專用 GPU 集群的超大規(guī)模廠商中很流行。優(yōu)化拓?fù)涫辜焊咝铱沙掷m(xù)。例如谷歌使用的3D torus和optical spine交換機(jī),以及 Meta 使用的rail-optimized leaf交換機(jī)。一些 HPC 架構(gòu)還使用dragonfly拓?fù)鋪?lái)優(yōu)化 GPU 之間的跳數(shù)。
Meta:Rail-Only 拓?fù)?/strong>
Meta的一篇論文(《Meta和MIT最新網(wǎng)絡(luò)架構(gòu)研究,對(duì)傳統(tǒng)架構(gòu)提出挑戰(zhàn)》)分析了大型 GPU 集群中的流量模式。他們將GPU 分組為高帶寬 (HB) 域集群,每個(gè)集群有 256 個(gè) GPU。256 個(gè) GPU 是GH200超級(jí)計(jì)算機(jī)的一部分,其中所有GPU 都通過(guò)NVSwitch層次架構(gòu)連接。HB 域通過(guò)rail-optimized交換機(jī)連接。從GPT-3/OPT-175B 模型的流量模式分析可得出以下結(jié)論:
整個(gè)集群99%的GPU對(duì)不承載任何流量;
論文中的熱圖反映了觀察結(jié)果。該論文提出,具有rail -only交換機(jī)的拓?fù)淇梢耘c非阻塞 CLOS 拓?fù)湟粯訄?zhí)行。在rail -only交換機(jī)中,所有 M 個(gè) HB 域中的第 N 個(gè) GPU 通過(guò) 400Gbps 鏈路連接到 M x400G rail交換機(jī)。

| 訓(xùn)練 GPT-3 模型時(shí) GPU 對(duì)之間的流量模式
在下面的拓?fù)渲?,?dāng) GPU 需要將數(shù)據(jù)移動(dòng)到不同rail中的另一臺(tái)服務(wù)器GPU 時(shí),它會(huì)首先使用 NVlink 將數(shù)據(jù)移動(dòng)到與目標(biāo) GPU 屬于同一rail的服務(wù)器內(nèi) GPU 內(nèi)存中。之后,數(shù)據(jù)可以通過(guò)rail交換機(jī)傳送到目的地。這可以實(shí)現(xiàn)消息聚合和網(wǎng)絡(luò)流量?jī)?yōu)化。

| 具有rail-only交換機(jī)的 1024 個(gè) GPU 集群的拓?fù)?/p>

| 具有rail 和spine交換機(jī)的 1024 個(gè) GPU 集群的 CLOS 拓?fù)?/p>
rail-optimized連接適用于大多數(shù) LLM/Transformer模型。對(duì)于大于1024個(gè) GPU的集群,需要使用spine交換機(jī)來(lái)實(shí)現(xiàn) GPU 間的數(shù)據(jù)并行通信。

| 具有 Rail-Spine 交換機(jī)的 2048 GPU 集群
Dragonfly拓?fù)?/strong>
Dragonfly是由John Kim等人在2008年的論文Technology-Driven, Highly-Scalable Dragonfly Topology中提出,它的特點(diǎn)是網(wǎng)絡(luò)直徑小、成本較低,早期主要用于HPC集群。在這種拓?fù)浣Y(jié)構(gòu)中,Pod 或交換機(jī)組連接到服務(wù)器,這些 Pod 還通過(guò)高帶寬鏈路直接相互連接。Dragonfly比傳統(tǒng)的leaf-spine拓?fù)湫枰慕粨Q機(jī)更少,但當(dāng)部署用于以太網(wǎng)/IP通信時(shí),它也面臨著一定的挑戰(zhàn)。

| Dragonfly 拓?fù)涫纠?/p>
Dragonfly網(wǎng)絡(luò)在擴(kuò)展性方面存在問(wèn)題,每次需要增加網(wǎng)絡(luò)容量時(shí),都必須對(duì)Dragonfly網(wǎng)絡(luò)進(jìn)行重新布線,這增加了網(wǎng)絡(luò)的復(fù)雜性和管理難度。
在 Hot Interconnects 2023 上,Bill Dally 博士提出了一種拓?fù)?,其中組和組之間可以直接連接到光電路交換機(jī)(OCS)。這樣,就算添加額外的組、更改直接鏈路,也不會(huì)對(duì)連接性造成太多的干擾。通過(guò)引入OCS技術(shù),可以實(shí)現(xiàn)布線自動(dòng)化,從而有效解決了擴(kuò)展過(guò)程中重新布線的難題,提高了網(wǎng)絡(luò)的可管理性和靈活性。

02Fabric擁塞
無(wú)損傳輸對(duì)于優(yōu)化訓(xùn)練性能至關(guān)重要。任何網(wǎng)絡(luò)丟失都會(huì)觸發(fā) RoCE 中使用標(biāo)準(zhǔn)NIC的 go-back-N 重傳,這會(huì)浪費(fèi)帶寬并導(dǎo)致長(zhǎng)尾延遲。
雖然可以在所有鏈路上啟用鏈路級(jí)PFC,但如果分配的緩沖區(qū)在隊(duì)列之間進(jìn)行共享,那么擴(kuò)展的PFC可能會(huì)造成排隊(duì)阻塞、浪費(fèi)緩沖區(qū)空間、死鎖、PFC風(fēng)暴等。PFC 應(yīng)作為防止流量丟失的最后手段。
我們先看看網(wǎng)絡(luò)中的擁塞點(diǎn):

| 網(wǎng)絡(luò)擁塞點(diǎn)
NIC -> Leaf Links
在rail-optimized的leaf 交換機(jī)中,對(duì)于服務(wù)器間流量,NCCL/PXN 利用節(jié)點(diǎn)內(nèi)的 NVSwitch 將數(shù)據(jù)移動(dòng)到與目標(biāo)位于同一rail上的 GPU,然后在不跨越rail的情況下將數(shù)據(jù)發(fā)送到目標(biāo)GPU,從而實(shí)現(xiàn)NIC到leaf的流量?jī)?yōu)化。
雖然每個(gè) GPU 可以向其rail交換機(jī)發(fā)送 400Gbps 的數(shù)據(jù),但并非所有 GPU 到leaf交換機(jī)的鏈路都是完全飽和的,在服務(wù)器到leaf鏈路之間會(huì)產(chǎn)生不均勻的帶寬分配。因此,一些超大規(guī)模企業(yè)不喜歡rail-optimized的leaf交換機(jī),他們更喜歡在從服務(wù)器到leaf交換機(jī)的所有可用鏈路上對(duì) GPU 流量進(jìn)行負(fù)載平衡。
Leaf -> Spine Links
在rail-optimized網(wǎng)絡(luò)中,leaf-spine主要是數(shù)據(jù)并行流量,這些流具有較高的帶寬并且持續(xù)時(shí)間較長(zhǎng)。例如,每個(gè)H100 GPU 具有 80GB 內(nèi)存,梯度可能會(huì)占用該內(nèi)存的 1/10 (約8GB)。當(dāng) GPU 使用單個(gè) QP(流)通過(guò) 400Gbps 上行鏈路發(fā)送 8GB 數(shù)據(jù)時(shí),會(huì)產(chǎn)生大于160ms 的流量,需要由rail交換機(jī)處理。
當(dāng)可以通過(guò)這些路徑到達(dá)目的地時(shí),ECMP 會(huì)在leaf和spine鏈路之間的可用并行等價(jià)路徑上分發(fā)數(shù)據(jù)包。ECMP 旨在分散網(wǎng)絡(luò)流量以提高鏈路利用率并防止擁塞。交換機(jī)使用哈希函數(shù)來(lái)決定發(fā)送數(shù)據(jù)包的路徑。然而,當(dāng)系統(tǒng)熵值非常低時(shí),哈??赡軙?huì)導(dǎo)致并行鏈路利用率不均勻以及某些鏈路嚴(yán)重?fù)砣臎_突。某些流量模式在使用 ECMP 負(fù)載均衡時(shí),鏈路利用率可能低于 50%。
Spine -> Leaf Links
Spine到Leaf的擁塞可能在以下情況時(shí)發(fā)生:
spine交換機(jī)和每個(gè)leaf 交換機(jī)之間可能存在多個(gè)并行鏈路,用于負(fù)載均衡鏈路間流量的 ECMP 可能會(huì)造成鏈路利用率不均勻。
In-cast流量。Incast 是一種流量模式,其中許多流匯聚到交換機(jī)的同一輸出口上,耗盡該接口的緩沖區(qū)空間并導(dǎo)致數(shù)據(jù)包丟失。當(dāng) GPU 集群中并行運(yùn)行多個(gè)訓(xùn)練任務(wù)時(shí),也可能會(huì)發(fā)生這種情況。
Leaf -> NIC links
它們承載高帶寬流水線并行和數(shù)據(jù)并行流量。
流水線并行流量負(fù)載在很大程度上取決于模型架構(gòu)和分區(qū)。它具有高帶寬和突發(fā)性,GPU 之間具有微秒突發(fā)性。這兩種流量模式結(jié)合在一起可能導(dǎo)致鏈路發(fā)生incast情況。
03擁塞控制解決方案
下面列出的各種技術(shù)可用于緩解 GPU fabric中的擁塞,最終的部署取決于支持這些協(xié)議的網(wǎng)卡/交換機(jī)以及GPU集群的規(guī)模。
提高鏈路利用率:如果任意兩臺(tái)交換機(jī)或交換機(jī)/網(wǎng)卡之間的所有并行路徑都可以到達(dá)目的地,則將流量均勻分布在這些路徑上。動(dòng)態(tài)/自適應(yīng)負(fù)載均衡和數(shù)據(jù)包噴灑(packet spraying)就屬于這一類。更多到達(dá)目的地的路徑將有助于減少網(wǎng)絡(luò)交換機(jī)中的隊(duì)列堆積。
發(fā)送端驅(qū)動(dòng)的擁塞控制算法 (CCA) 依賴于 ECN 或來(lái)自交換機(jī)的實(shí)時(shí)遙測(cè)。根據(jù)遙測(cè)數(shù)據(jù),發(fā)送端將調(diào)節(jié)發(fā)送給fabric的流量。
接收端驅(qū)動(dòng)的擁塞控制:接收端向發(fā)送端分配用于傳輸數(shù)據(jù)包的Credit。
Scheduled fabric。
可以更好地處理?yè)砣男聜鬏攨f(xié)議。
動(dòng)態(tài)/自適應(yīng)負(fù)載均衡
當(dāng)目的地可以使用并行鏈路到達(dá)時(shí),以太網(wǎng)交換機(jī)中的動(dòng)態(tài)/自適應(yīng)負(fù)載均衡會(huì)動(dòng)態(tài)地將流量從擁塞鏈路轉(zhuǎn)移到空閑鏈路。為了不對(duì)流內(nèi)的數(shù)據(jù)包重新排序,大多數(shù)實(shí)現(xiàn)都會(huì)尋找流中的間隔(gap)來(lái)進(jìn)行負(fù)載均衡。如果gap足夠大,就表示這個(gè)gap之前的數(shù)據(jù)包已經(jīng)傳輸了很遠(yuǎn),不用擔(dān)心通過(guò)空閑鏈路發(fā)送的數(shù)據(jù)包會(huì)比之前的數(shù)據(jù)包提前到達(dá)目的地。
動(dòng)態(tài)負(fù)載均衡的一種極端形式是packet-level spraying。
packet spraying
另一種流行的方法是packet spraying。Fabric中的每個(gè)交換機(jī)均勻地在所有可用(且不擁塞)的并行鏈路上進(jìn)行packet spraying,可以將并行鏈路利用率提高到90%以上。當(dāng)一個(gè)流 (QP) 的數(shù)據(jù)包被spray時(shí),它們會(huì)采用不同的路徑通過(guò)fabric,經(jīng)歷不同的擁塞延遲,并且可能會(huì)無(wú)序地到達(dá)目標(biāo) GPU。
NIC 應(yīng)具有處理無(wú)序 RDMA 事務(wù)的邏輯/硬件。Nvidia 的 ConnectX NIC可以處理無(wú)序 (OOO) RDMA 操作。然而,它們?cè)诓粨p失性能的情況下支持的重新排序量是有限的。Nvidia 對(duì)此功能提供有限的現(xiàn)場(chǎng)支持,尚不清楚其最新版本的NIC是否正式支持?jǐn)?shù)據(jù)包重新排序。
云提供商的另一種選擇是使用支持 RDMA 操作重新排序的硬件來(lái)構(gòu)建自己的網(wǎng)卡,并在客戶構(gòu)建的 GPU 服務(wù)器中使用它們。在構(gòu)建自定義NIC時(shí),使用 Nvidia 的 Bluefield DPU 也是一種選擇。Bluefield支持無(wú)序RDMA操作,(很可能)將它們存儲(chǔ)在本地內(nèi)存中,然后在重新排序事務(wù)時(shí)將數(shù)據(jù)包寫入GPU內(nèi)存。然而,與標(biāo)準(zhǔn)NIC中的簡(jiǎn)單 ASIC/FPGA 相比,DPU更加昂貴且耗電。除了數(shù)據(jù)包排序之外,它們還有許多 AI/ML 訓(xùn)練工作負(fù)載并不需要的功能。如果 Bluefield 確實(shí)使用本地內(nèi)存進(jìn)行重新排序,則會(huì)增加事務(wù)的額外延遲,并浪費(fèi) NIC 中用于存儲(chǔ)數(shù)據(jù)包的內(nèi)存資源,而數(shù)據(jù)包在重新排序時(shí)可以存儲(chǔ)在 GPU 內(nèi)存中。
亞馬遜/微軟的自定義NIC支持?jǐn)?shù)據(jù)包重新排序。其他交換機(jī)供應(yīng)商也可能正在構(gòu)建可以支持?jǐn)?shù)據(jù)包重新排序的智能網(wǎng)卡(或網(wǎng)卡中使用的 ASIC)。
Scheduled Fabric
為了順利工作,Scheduled Fabric在每個(gè)端點(diǎn)leaf交換機(jī)中都需要大量入口緩沖/狀態(tài),以便對(duì)發(fā)往集群中的所有端點(diǎn) GPU 的數(shù)據(jù)包進(jìn)行排隊(duì),它還需要在這些端點(diǎn)交換機(jī)上為所有無(wú)損隊(duì)列提供大的出口緩沖區(qū)。
在傳輸數(shù)據(jù)包之前,有一個(gè)額外的 RTT 延遲(用于端點(diǎn)交換機(jī)之間的請(qǐng)求-授予握手)。此外,該方案目前還沒(méi)有明確的標(biāo)準(zhǔn),每個(gè)供應(yīng)商都有自己的專有協(xié)議,控制平面管理非常復(fù)雜,尤其是當(dāng)某些鏈路/交換機(jī)發(fā)生故障并需要增加額外容量時(shí),這需要客戶對(duì)每個(gè)供應(yīng)商的產(chǎn)品有深入的了解。供應(yīng)商鎖定的風(fēng)險(xiǎn)很高。
EQDS
邊緣排隊(duì)數(shù)據(jù)報(bào)服務(wù)(EQDS,Edge-Queued Datagram Service)是一種為數(shù)據(jù)中心提供的新數(shù)據(jù)報(bào)服務(wù),它將幾乎所有隊(duì)列從核心網(wǎng)絡(luò)轉(zhuǎn)移到發(fā)送主機(jī)。這使得它能夠支持多個(gè)(沖突的)高層協(xié)議,同時(shí)只根據(jù)任何接收端驅(qū)動(dòng)的信用/credit方案向網(wǎng)絡(luò)發(fā)送數(shù)據(jù)包。這意味著發(fā)送端只有在從接收端收到Credit時(shí)才能發(fā)送數(shù)據(jù)包,而接收端只有在有足夠的緩沖區(qū)空間時(shí)才授予Credit,并計(jì)量授予不超過(guò)接收端的訪問(wèn)鏈路速度。這樣,網(wǎng)絡(luò)交換機(jī)可以使用非常小的緩沖區(qū)運(yùn)行,并最大限度地減少擁塞/數(shù)據(jù)包丟失。
EQDS 使用packet spraying來(lái)均衡網(wǎng)絡(luò)核心中的負(fù)載,避免流沖突,并提高吞吐量。此外,這個(gè)協(xié)議的優(yōu)點(diǎn)是它沒(méi)有引入另一個(gè)傳輸層協(xié)議,它通過(guò)動(dòng)態(tài)隧道向現(xiàn)有傳輸層提供數(shù)據(jù)報(bào)服務(wù)。
EQDS 可以在端點(diǎn) NIC 的軟件中實(shí)現(xiàn)。但是,對(duì)于高帶寬服務(wù)器,應(yīng)該在 NIC 硬件中實(shí)現(xiàn)。Broadcom 收購(gòu)了發(fā)布此協(xié)議的公司,并且可能正在構(gòu)建具有此功能的 NIC 硬件。
DCQCN
對(duì)于 RoCEv2 RDMA 流量,需要更快的擁塞響應(yīng),而無(wú)需通過(guò)主機(jī)軟件。2015 年由 微軟和 Mellanox 提出的DCQCN擁塞控制算法,通常在網(wǎng)卡中實(shí)現(xiàn)。當(dāng)交換機(jī)檢測(cè)到擁塞時(shí), 將出口包打上ECN標(biāo)記, 接收端收到ECN包后, 因?yàn)橛邪l(fā)送端的QP信息, 發(fā)送擁塞通知包CNP給發(fā)送端, 這時(shí)候假如發(fā)送端收到多個(gè)接收端發(fā)來(lái)的ECN包, 發(fā)送方會(huì)使用DCQCN來(lái)降速和調(diào)度發(fā)送。一段時(shí)間發(fā)送端沒(méi)有收到CNP時(shí), 這個(gè)時(shí)候需要恢復(fù)流量。
為了使該算法發(fā)揮作用,交換機(jī)不應(yīng)在 ECN 標(biāo)記之前發(fā)送 PFC,PFC 是在極端擁塞情況下防止數(shù)據(jù)包丟失的最后手段。
阿里HPCC/HPCC++
雖然 ECN 指示網(wǎng)絡(luò)中存在擁塞,但指示的粒度非常粗,只有一種狀態(tài)可以指示數(shù)據(jù)包是否在fabric中的某臺(tái)交換機(jī)中遇到擁塞。當(dāng)發(fā)送端開(kāi)始降低速率時(shí),擁塞/隊(duì)列堆積已經(jīng)發(fā)生,這會(huì)增加網(wǎng)絡(luò)的延遲,并且擁塞控制算法(如 DCQCN)必須迅速采取行動(dòng)以避免觸發(fā) PFC。另外,依賴ECN的方案很難計(jì)算出發(fā)送速率要降低多少。
阿里在2019年的SIGCOMM上提出了HPCC(高精度擁塞控制),試圖解決以上問(wèn)題,其背后的關(guān)鍵思想是利用來(lái)自INT的精確鏈路負(fù)載信息來(lái)計(jì)算準(zhǔn)確的流量更新。數(shù)據(jù)包從發(fā)送端傳播到接收端的過(guò)程中,路徑上的每個(gè)交換機(jī)都會(huì)利用其交換 ASIC 的 INT(帶內(nèi)遙測(cè)) 功能插入一些元數(shù)據(jù),報(bào)告數(shù)據(jù)包出端口的當(dāng)前負(fù)載,包括時(shí)間戳 (ts)、隊(duì)列長(zhǎng)度 (qLen)、傳輸字節(jié) (txBytes) 和鏈路帶寬容量 (B)。當(dāng)接收方收到數(shù)據(jù)包時(shí),會(huì)將交換機(jī)記錄的所有元數(shù)據(jù)通過(guò)ACK發(fā)送給發(fā)送端。然后發(fā)送端根據(jù)帶有網(wǎng)絡(luò)負(fù)載信息的 ACK 決定如何調(diào)整其流量。
HPCC 通過(guò)利用交換機(jī)的遙測(cè)信息,可以實(shí)現(xiàn)更快的收斂、更小的fabric隊(duì)列以及發(fā)送端的公平性。HPCC++ 對(duì) HPCC 擁塞控制算法添加了額外的增強(qiáng)功能,以加快收斂速度。
谷歌CSIG
CSIG是交換機(jī)向端點(diǎn)設(shè)備發(fā)送擁塞信號(hào)的另一種方式,谷歌在 OCP 2023 中開(kāi)源了該協(xié)議。CSIG旨在以更少的數(shù)據(jù)包開(kāi)銷實(shí)現(xiàn)與 HPCC/HPCC++ 類似的目標(biāo)。CSIG 的一些顯著特征如下:
CSIG使用固定長(zhǎng)度的報(bào)頭來(lái)承載信號(hào),而 INT 使用隨跳數(shù)增長(zhǎng)的可變長(zhǎng)度報(bào)頭,這使其在帶寬和開(kāi)銷方面更加高效。
CSIG 比 INT 更具可擴(kuò)展性,因?yàn)樗褂帽容^和替換機(jī)制從路徑上的瓶頸設(shè)備收集信號(hào),而 INT 使用逐跳追加機(jī)制,要求每個(gè)設(shè)備插入自己的信息。
CSIG 標(biāo)簽在結(jié)構(gòu)上與 VLAN 標(biāo)簽相似,這使得網(wǎng)絡(luò)能夠重新利用現(xiàn)有的 VLAN 重寫邏輯來(lái)支持 CSIG 標(biāo)簽。這可以簡(jiǎn)化網(wǎng)絡(luò)內(nèi)隧道和加密的實(shí)現(xiàn)和兼容性。
現(xiàn)有的 CCA 可以使用 CSIG 信息來(lái)調(diào)整流量,以便更準(zhǔn)確地控制網(wǎng)絡(luò)和incast擁塞。
亞馬遜SRD
亞馬遜開(kāi)發(fā)了一種名為SRD (可擴(kuò)展可靠數(shù)據(jù)報(bào)) 的新傳輸協(xié)議來(lái)解決 RoCEv2 的局限性。SRD 不保留數(shù)據(jù)包順序,而是通過(guò)盡可能多的網(wǎng)絡(luò)路徑發(fā)送數(shù)據(jù)包,同時(shí)避免路徑過(guò)載。SRD 的創(chuàng)新在于有意通過(guò)多個(gè)路徑分別發(fā)包,雖然包到達(dá)后通常是亂序的,但AWS實(shí)現(xiàn)了在接收處以極快的速度進(jìn)行重新排序,最終在充分利用網(wǎng)絡(luò)吞吐能力的基礎(chǔ)上,極大地降低了傳輸延遲。

SRD 集成在亞馬遜的 Elastic Fabric Adapter (EFA) 中,并與商用以太網(wǎng)交換機(jī)配合使用。它使用標(biāo)準(zhǔn) ECMP 進(jìn)行多路徑負(fù)載平衡。發(fā)送方通過(guò)操作數(shù)據(jù)包封裝來(lái)控制 ECMP 路徑選擇。發(fā)送方知道每個(gè)多路徑中的擁塞情況(通過(guò)為每個(gè)路徑收集的 RTT),并且可以調(diào)節(jié)通過(guò)每個(gè)路徑發(fā)送的數(shù)量。SRD 根據(jù)傳入確認(rèn)數(shù)據(jù)包的時(shí)序和 RTT 變化所指示的速率估計(jì)來(lái)調(diào)整其每個(gè)連接的傳輸速率。
谷歌Falcon
在 2023 年 OCP 全球峰會(huì)上,谷歌開(kāi)放了其硬件輔助傳輸層 Falcon。Falcon 的構(gòu)建原理與 SRD 相同,通過(guò)多路徑連接、處理網(wǎng)卡中的無(wú)序數(shù)據(jù)包、選擇性重傳以及更快更好的基于延遲的擁塞控制 (swift) 來(lái)實(shí)現(xiàn)低延遲和高帶寬的可靠傳輸。網(wǎng)絡(luò)交換機(jī)不需要任何修改來(lái)支持該傳輸層。

新協(xié)議
2023年7月成立的超以太網(wǎng)聯(lián)盟(UEC)的目標(biāo)之一是優(yōu)化鏈路級(jí)和端到端網(wǎng)絡(luò)傳輸協(xié)議或創(chuàng)建新協(xié)議,以使以太網(wǎng)fabric能夠更好地處理大型 AI/ML 集群。然而,由于UEC 聯(lián)盟的創(chuàng)始成員都已在其交換機(jī)/網(wǎng)卡和主機(jī)堆棧中適應(yīng)了不同的專有解決方案,因此尚不清楚他們將以多快的速度實(shí)現(xiàn)這些目標(biāo)。
即使提出了一個(gè)新協(xié)議,也不清楚具有定制解決方案的超大規(guī)模廠商是否會(huì)立即適應(yīng)新標(biāo)準(zhǔn)。與 RDMA/RoCE 一樣,任何新的傳輸協(xié)議都需要經(jīng)歷多代才能獲得可靠的實(shí)現(xiàn)。與此同時(shí),商業(yè)交換機(jī)供應(yīng)商必須繼續(xù)關(guān)注行業(yè)發(fā)展方向,并為終端擁塞控制提供更好的遙測(cè)和擁塞信號(hào)選擇。
04總 結(jié)
本文詳細(xì)敘述了 genAI/LLM 模型的 GPU 流量模式,以及如何針對(duì)這些流量模式優(yōu)化網(wǎng)絡(luò)拓?fù)?。?dāng)前,該行業(yè)正處于為大型 GPU 集群部署以太網(wǎng)fabric的早期階段。如果packet spraying和端到端擁塞控制在 AI/ML/HPC 集群中使用的大型 IB 網(wǎng)絡(luò)表現(xiàn)依然出色,那么以太網(wǎng)fabric將受益于相同的功能。然而,在超大規(guī)模廠商確定適合自己的方案,并發(fā)布其協(xié)議(通過(guò) UEC 或獨(dú)立)以供網(wǎng)卡/交換機(jī)適應(yīng)之前,拓?fù)浜蛽砣芾砉δ苓€需要一些試驗(yàn)和調(diào)整。總的來(lái)說(shuō),以太網(wǎng)fabric和交換機(jī)供應(yīng)商的前途非常光明!
審核編輯:湯梓紅
-
負(fù)載
+關(guān)注
關(guān)注
2文章
665瀏覽量
36519 -
gpu
+關(guān)注
關(guān)注
28文章
5194瀏覽量
135461 -
拓?fù)浣Y(jié)構(gòu)
+關(guān)注
關(guān)注
6文章
332瀏覽量
41089 -
模型
+關(guān)注
關(guān)注
1文章
3752瀏覽量
52111
原文標(biāo)題:盤點(diǎn)GPU Fabric典型拓?fù)浣Y(jié)構(gòu)及擁塞控制技術(shù)
文章出處:【微信號(hào):SDNLAB,微信公眾號(hào):SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
典型的電磁爐拓?fù)?/b>結(jié)構(gòu)及應(yīng)用分析
不同的充電拓?fù)?/b>結(jié)構(gòu)介紹
合適的CAN總線拓?fù)?/b>結(jié)構(gòu)如何選擇?
基于拓?fù)?/b>結(jié)構(gòu)的升壓Boost
常見(jiàn)網(wǎng)絡(luò)拓?fù)?/b>結(jié)構(gòu)
混合型拓?fù)?/b>結(jié)構(gòu)
拓?fù)?/b>結(jié)構(gòu),拓?fù)?/b>結(jié)構(gòu)有哪些類型?
什么是Fabric, Switched交換結(jié)構(gòu)
什么是電路拓?fù)?/b>結(jié)構(gòu)_多種pfc電路的拓?fù)?/b>結(jié)構(gòu)介紹
AMD Infinity Fabric升級(jí)后可支持CPU-GPU之間的連接
AMD Infinity Fabric總線升級(jí),最多支持8個(gè)GPU芯片的連接
典型的線性音頻放大器拓?fù)?/b>結(jié)構(gòu)
拓?fù)?/b>結(jié)構(gòu)是什么意思
拓?fù)?/b>視圖與實(shí)際拓?fù)?/b>結(jié)構(gòu)間的差異
盤點(diǎn)GPU Fabric典型拓?fù)浣Y(jié)構(gòu)
評(píng)論