91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

盤點(diǎn)GPU Fabric典型拓?fù)浣Y(jié)構(gòu)

SDNLAB ? 來(lái)源:SDNLAB ? 2023-12-03 09:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當(dāng)前,許多超大規(guī)模廠商正在競(jìng)相構(gòu)建大型 GPU 集群,以適應(yīng)GenAI訓(xùn)練工作負(fù)載。本文探討了針對(duì)GenAI訓(xùn)練工作負(fù)載進(jìn)行優(yōu)化的各種網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),如Meta的Rail-Only 拓?fù)浜虳ragonfly拓?fù)?,以及網(wǎng)絡(luò)中可能存在的一些擁塞點(diǎn)和各種擁塞控制解決方案。

01GPU Fabric拓?fù)?/strong>

有兩種構(gòu)建 GPU 拓?fù)涞姆椒ǎ?/p>

# Fat-tree CLOS 具有非阻塞的any-to-any連接,不依賴于正在訓(xùn)練的模型。

這是公有云提供商的首選方案,其 GPU 集群可用于訓(xùn)練各種模型,包括具有大型嵌入表的推薦模型,這些嵌入表可跨所有 GPU 上創(chuàng)建 all-to-all 通信。然而,為成千上萬(wàn)的 GPU 提供非阻塞連接是非常昂貴的,與扁平的spine/leaf拓?fù)湎啾?,它需要更?a href="http://m.makelele.cn/v/tag/1392/" target="_blank">交換機(jī)和更多的跳數(shù)。這些拓?fù)涓锌赡艹霈F(xiàn)擁塞和長(zhǎng)尾延遲。

# 針對(duì)特定訓(xùn)練工作負(fù)載優(yōu)化的拓?fù)洹?/strong>

這種方法在為 LLM 訓(xùn)練工作負(fù)載構(gòu)建專用 GPU 集群的超大規(guī)模廠商中很流行。優(yōu)化拓?fù)涫辜焊咝铱沙掷m(xù)。例如谷歌使用的3D torus和optical spine交換機(jī),以及 Meta 使用的rail-optimized leaf交換機(jī)。一些 HPC 架構(gòu)還使用dragonfly拓?fù)鋪?lái)優(yōu)化 GPU 之間的跳數(shù)。

Meta:Rail-Only 拓?fù)?/strong>

Meta的一篇論文(《Meta和MIT最新網(wǎng)絡(luò)架構(gòu)研究,對(duì)傳統(tǒng)架構(gòu)提出挑戰(zhàn)》)分析了大型 GPU 集群中的流量模式。他們將GPU 分組為高帶寬 (HB) 域集群,每個(gè)集群有 256 個(gè) GPU。256 個(gè) GPU 是GH200超級(jí)計(jì)算機(jī)的一部分,其中所有GPU 都通過(guò)NVSwitch層次架構(gòu)連接。HB 域通過(guò)rail-optimized交換機(jī)連接。從GPT-3/OPT-175B 模型的流量模式分析可得出以下結(jié)論:

整個(gè)集群99%的GPU對(duì)不承載任何流量;

論文中的熱圖反映了觀察結(jié)果。該論文提出,具有rail -only交換機(jī)的拓?fù)淇梢耘c非阻塞 CLOS 拓?fù)湟粯訄?zhí)行。在rail -only交換機(jī)中,所有 M 個(gè) HB 域中的第 N 個(gè) GPU 通過(guò) 400Gbps 鏈路連接到 M x400G rail交換機(jī)。

wKgZomVr4E2AX2JMAAksERXOhNs633.png

| 訓(xùn)練 GPT-3 模型時(shí) GPU 對(duì)之間的流量模式

在下面的拓?fù)渲?,?dāng) GPU 需要將數(shù)據(jù)移動(dòng)到不同rail中的另一臺(tái)服務(wù)器GPU 時(shí),它會(huì)首先使用 NVlink 將數(shù)據(jù)移動(dòng)到與目標(biāo) GPU 屬于同一rail的服務(wù)器內(nèi) GPU 內(nèi)存中。之后,數(shù)據(jù)可以通過(guò)rail交換機(jī)傳送到目的地。這可以實(shí)現(xiàn)消息聚合和網(wǎng)絡(luò)流量?jī)?yōu)化。

wKgaomVr4E2AWLOMAAHib9uS80E553.png

| 具有rail-only交換機(jī)的 1024 個(gè) GPU 集群的拓?fù)?/p>

wKgaomVr4E2AcsAPAAPMoS69Q8c293.png

| 具有rail 和spine交換機(jī)的 1024 個(gè) GPU 集群的 CLOS 拓?fù)?/p>

rail-optimized連接適用于大多數(shù) LLM/Transformer模型。對(duì)于大于1024個(gè) GPU的集群,需要使用spine交換機(jī)來(lái)實(shí)現(xiàn) GPU 間的數(shù)據(jù)并行通信。

wKgZomVr4E2AbR8mAANuwA-0o4w055.png

| 具有 Rail-Spine 交換機(jī)的 2048 GPU 集群

Dragonfly拓?fù)?/strong>

Dragonfly是由John Kim等人在2008年的論文Technology-Driven, Highly-Scalable Dragonfly Topology中提出,它的特點(diǎn)是網(wǎng)絡(luò)直徑小、成本較低,早期主要用于HPC集群。在這種拓?fù)浣Y(jié)構(gòu)中,Pod 或交換機(jī)組連接到服務(wù)器,這些 Pod 還通過(guò)高帶寬鏈路直接相互連接。Dragonfly比傳統(tǒng)的leaf-spine拓?fù)湫枰慕粨Q機(jī)更少,但當(dāng)部署用于以太網(wǎng)/IP通信時(shí),它也面臨著一定的挑戰(zhàn)。

wKgZomVr4E2Add5AAAUmyPzTH2w674.png

| Dragonfly 拓?fù)涫纠?/p>

Dragonfly網(wǎng)絡(luò)在擴(kuò)展性方面存在問(wèn)題,每次需要增加網(wǎng)絡(luò)容量時(shí),都必須對(duì)Dragonfly網(wǎng)絡(luò)進(jìn)行重新布線,這增加了網(wǎng)絡(luò)的復(fù)雜性和管理難度。

在 Hot Interconnects 2023 上,Bill Dally 博士提出了一種拓?fù)?,其中組和組之間可以直接連接到光電路交換機(jī)(OCS)。這樣,就算添加額外的組、更改直接鏈路,也不會(huì)對(duì)連接性造成太多的干擾。通過(guò)引入OCS技術(shù),可以實(shí)現(xiàn)布線自動(dòng)化,從而有效解決了擴(kuò)展過(guò)程中重新布線的難題,提高了網(wǎng)絡(luò)的可管理性和靈活性。

wKgaomVr4E2AWLKAAALIn_uHopM484.png

02Fabric擁塞

無(wú)損傳輸對(duì)于優(yōu)化訓(xùn)練性能至關(guān)重要。任何網(wǎng)絡(luò)丟失都會(huì)觸發(fā) RoCE 中使用標(biāo)準(zhǔn)NIC的 go-back-N 重傳,這會(huì)浪費(fèi)帶寬并導(dǎo)致長(zhǎng)尾延遲。

雖然可以在所有鏈路上啟用鏈路級(jí)PFC,但如果分配的緩沖區(qū)在隊(duì)列之間進(jìn)行共享,那么擴(kuò)展的PFC可能會(huì)造成排隊(duì)阻塞、浪費(fèi)緩沖區(qū)空間、死鎖、PFC風(fēng)暴等。PFC 應(yīng)作為防止流量丟失的最后手段。

我們先看看網(wǎng)絡(luò)中的擁塞點(diǎn):

wKgZomVr4E2ALyW0AAG1Pd1ez2k241.png

| 網(wǎng)絡(luò)擁塞點(diǎn)

NIC -> Leaf Links

在rail-optimized的leaf 交換機(jī)中,對(duì)于服務(wù)器間流量,NCCL/PXN 利用節(jié)點(diǎn)內(nèi)的 NVSwitch 將數(shù)據(jù)移動(dòng)到與目標(biāo)位于同一rail上的 GPU,然后在不跨越rail的情況下將數(shù)據(jù)發(fā)送到目標(biāo)GPU,從而實(shí)現(xiàn)NIC到leaf的流量?jī)?yōu)化。

雖然每個(gè) GPU 可以向其rail交換機(jī)發(fā)送 400Gbps 的數(shù)據(jù),但并非所有 GPU 到leaf交換機(jī)的鏈路都是完全飽和的,在服務(wù)器到leaf鏈路之間會(huì)產(chǎn)生不均勻的帶寬分配。因此,一些超大規(guī)模企業(yè)不喜歡rail-optimized的leaf交換機(jī),他們更喜歡在從服務(wù)器到leaf交換機(jī)的所有可用鏈路上對(duì) GPU 流量進(jìn)行負(fù)載平衡。

Leaf -> Spine Links

在rail-optimized網(wǎng)絡(luò)中,leaf-spine主要是數(shù)據(jù)并行流量,這些流具有較高的帶寬并且持續(xù)時(shí)間較長(zhǎng)。例如,每個(gè)H100 GPU 具有 80GB 內(nèi)存,梯度可能會(huì)占用該內(nèi)存的 1/10 (約8GB)。當(dāng) GPU 使用單個(gè) QP(流)通過(guò) 400Gbps 上行鏈路發(fā)送 8GB 數(shù)據(jù)時(shí),會(huì)產(chǎn)生大于160ms 的流量,需要由rail交換機(jī)處理。

當(dāng)可以通過(guò)這些路徑到達(dá)目的地時(shí),ECMP 會(huì)在leaf和spine鏈路之間的可用并行等價(jià)路徑上分發(fā)數(shù)據(jù)包。ECMP 旨在分散網(wǎng)絡(luò)流量以提高鏈路利用率并防止擁塞。交換機(jī)使用哈希函數(shù)來(lái)決定發(fā)送數(shù)據(jù)包的路徑。然而,當(dāng)系統(tǒng)熵值非常低時(shí),哈??赡軙?huì)導(dǎo)致并行鏈路利用率不均勻以及某些鏈路嚴(yán)重?fù)砣臎_突。某些流量模式在使用 ECMP 負(fù)載均衡時(shí),鏈路利用率可能低于 50%。

Spine -> Leaf Links

Spine到Leaf的擁塞可能在以下情況時(shí)發(fā)生:

spine交換機(jī)和每個(gè)leaf 交換機(jī)之間可能存在多個(gè)并行鏈路,用于負(fù)載均衡鏈路間流量的 ECMP 可能會(huì)造成鏈路利用率不均勻。

In-cast流量。Incast 是一種流量模式,其中許多流匯聚到交換機(jī)的同一輸出口上,耗盡該接口的緩沖區(qū)空間并導(dǎo)致數(shù)據(jù)包丟失。當(dāng) GPU 集群中并行運(yùn)行多個(gè)訓(xùn)練任務(wù)時(shí),也可能會(huì)發(fā)生這種情況。

Leaf -> NIC links

它們承載高帶寬流水線并行和數(shù)據(jù)并行流量。

流水線并行流量負(fù)載在很大程度上取決于模型架構(gòu)和分區(qū)。它具有高帶寬和突發(fā)性,GPU 之間具有微秒突發(fā)性。這兩種流量模式結(jié)合在一起可能導(dǎo)致鏈路發(fā)生incast情況。

03擁塞控制解決方案

下面列出的各種技術(shù)可用于緩解 GPU fabric中的擁塞,最終的部署取決于支持這些協(xié)議的網(wǎng)卡/交換機(jī)以及GPU集群的規(guī)模。

提高鏈路利用率:如果任意兩臺(tái)交換機(jī)或交換機(jī)/網(wǎng)卡之間的所有并行路徑都可以到達(dá)目的地,則將流量均勻分布在這些路徑上。動(dòng)態(tài)/自適應(yīng)負(fù)載均衡和數(shù)據(jù)包噴灑(packet spraying)就屬于這一類。更多到達(dá)目的地的路徑將有助于減少網(wǎng)絡(luò)交換機(jī)中的隊(duì)列堆積。

發(fā)送端驅(qū)動(dòng)的擁塞控制算法 (CCA) 依賴于 ECN 或來(lái)自交換機(jī)的實(shí)時(shí)遙測(cè)。根據(jù)遙測(cè)數(shù)據(jù),發(fā)送端將調(diào)節(jié)發(fā)送給fabric的流量。

接收端驅(qū)動(dòng)的擁塞控制:接收端向發(fā)送端分配用于傳輸數(shù)據(jù)包的Credit。

Scheduled fabric。

可以更好地處理?yè)砣男聜鬏攨f(xié)議。

動(dòng)態(tài)/自適應(yīng)負(fù)載均衡

當(dāng)目的地可以使用并行鏈路到達(dá)時(shí),以太網(wǎng)交換機(jī)中的動(dòng)態(tài)/自適應(yīng)負(fù)載均衡會(huì)動(dòng)態(tài)地將流量從擁塞鏈路轉(zhuǎn)移到空閑鏈路。為了不對(duì)流內(nèi)的數(shù)據(jù)包重新排序,大多數(shù)實(shí)現(xiàn)都會(huì)尋找流中的間隔(gap)來(lái)進(jìn)行負(fù)載均衡。如果gap足夠大,就表示這個(gè)gap之前的數(shù)據(jù)包已經(jīng)傳輸了很遠(yuǎn),不用擔(dān)心通過(guò)空閑鏈路發(fā)送的數(shù)據(jù)包會(huì)比之前的數(shù)據(jù)包提前到達(dá)目的地。

動(dòng)態(tài)負(fù)載均衡的一種極端形式是packet-level spraying。

packet spraying

另一種流行的方法是packet spraying。Fabric中的每個(gè)交換機(jī)均勻地在所有可用(且不擁塞)的并行鏈路上進(jìn)行packet spraying,可以將并行鏈路利用率提高到90%以上。當(dāng)一個(gè)流 (QP) 的數(shù)據(jù)包被spray時(shí),它們會(huì)采用不同的路徑通過(guò)fabric,經(jīng)歷不同的擁塞延遲,并且可能會(huì)無(wú)序地到達(dá)目標(biāo) GPU。

NIC 應(yīng)具有處理無(wú)序 RDMA 事務(wù)的邏輯/硬件。Nvidia 的 ConnectX NIC可以處理無(wú)序 (OOO) RDMA 操作。然而,它們?cè)诓粨p失性能的情況下支持的重新排序量是有限的。Nvidia 對(duì)此功能提供有限的現(xiàn)場(chǎng)支持,尚不清楚其最新版本的NIC是否正式支持?jǐn)?shù)據(jù)包重新排序。

云提供商的另一種選擇是使用支持 RDMA 操作重新排序的硬件來(lái)構(gòu)建自己的網(wǎng)卡,并在客戶構(gòu)建的 GPU 服務(wù)器中使用它們。在構(gòu)建自定義NIC時(shí),使用 Nvidia 的 Bluefield DPU 也是一種選擇。Bluefield支持無(wú)序RDMA操作,(很可能)將它們存儲(chǔ)在本地內(nèi)存中,然后在重新排序事務(wù)時(shí)將數(shù)據(jù)包寫入GPU內(nèi)存。然而,與標(biāo)準(zhǔn)NIC中的簡(jiǎn)單 ASIC/FPGA 相比,DPU更加昂貴且耗電。除了數(shù)據(jù)包排序之外,它們還有許多 AI/ML 訓(xùn)練工作負(fù)載并不需要的功能。如果 Bluefield 確實(shí)使用本地內(nèi)存進(jìn)行重新排序,則會(huì)增加事務(wù)的額外延遲,并浪費(fèi) NIC 中用于存儲(chǔ)數(shù)據(jù)包的內(nèi)存資源,而數(shù)據(jù)包在重新排序時(shí)可以存儲(chǔ)在 GPU 內(nèi)存中。

亞馬遜/微軟的自定義NIC支持?jǐn)?shù)據(jù)包重新排序。其他交換機(jī)供應(yīng)商也可能正在構(gòu)建可以支持?jǐn)?shù)據(jù)包重新排序的智能網(wǎng)卡(或網(wǎng)卡中使用的 ASIC)。

Scheduled Fabric

為了順利工作,Scheduled Fabric在每個(gè)端點(diǎn)leaf交換機(jī)中都需要大量入口緩沖/狀態(tài),以便對(duì)發(fā)往集群中的所有端點(diǎn) GPU 的數(shù)據(jù)包進(jìn)行排隊(duì),它還需要在這些端點(diǎn)交換機(jī)上為所有無(wú)損隊(duì)列提供大的出口緩沖區(qū)。

在傳輸數(shù)據(jù)包之前,有一個(gè)額外的 RTT 延遲(用于端點(diǎn)交換機(jī)之間的請(qǐng)求-授予握手)。此外,該方案目前還沒(méi)有明確的標(biāo)準(zhǔn),每個(gè)供應(yīng)商都有自己的專有協(xié)議,控制平面管理非常復(fù)雜,尤其是當(dāng)某些鏈路/交換機(jī)發(fā)生故障并需要增加額外容量時(shí),這需要客戶對(duì)每個(gè)供應(yīng)商的產(chǎn)品有深入的了解。供應(yīng)商鎖定的風(fēng)險(xiǎn)很高。

EQDS

邊緣排隊(duì)數(shù)據(jù)報(bào)服務(wù)(EQDS,Edge-Queued Datagram Service)是一種為數(shù)據(jù)中心提供的新數(shù)據(jù)報(bào)服務(wù),它將幾乎所有隊(duì)列從核心網(wǎng)絡(luò)轉(zhuǎn)移到發(fā)送主機(jī)。這使得它能夠支持多個(gè)(沖突的)高層協(xié)議,同時(shí)只根據(jù)任何接收端驅(qū)動(dòng)的信用/credit方案向網(wǎng)絡(luò)發(fā)送數(shù)據(jù)包。這意味著發(fā)送端只有在從接收端收到Credit時(shí)才能發(fā)送數(shù)據(jù)包,而接收端只有在有足夠的緩沖區(qū)空間時(shí)才授予Credit,并計(jì)量授予不超過(guò)接收端的訪問(wèn)鏈路速度。這樣,網(wǎng)絡(luò)交換機(jī)可以使用非常小的緩沖區(qū)運(yùn)行,并最大限度地減少擁塞/數(shù)據(jù)包丟失。

EQDS 使用packet spraying來(lái)均衡網(wǎng)絡(luò)核心中的負(fù)載,避免流沖突,并提高吞吐量。此外,這個(gè)協(xié)議的優(yōu)點(diǎn)是它沒(méi)有引入另一個(gè)傳輸層協(xié)議,它通過(guò)動(dòng)態(tài)隧道向現(xiàn)有傳輸層提供數(shù)據(jù)報(bào)服務(wù)。

EQDS 可以在端點(diǎn) NIC 的軟件中實(shí)現(xiàn)。但是,對(duì)于高帶寬服務(wù)器,應(yīng)該在 NIC 硬件中實(shí)現(xiàn)。Broadcom 收購(gòu)了發(fā)布此協(xié)議的公司,并且可能正在構(gòu)建具有此功能的 NIC 硬件。

DCQCN

對(duì)于 RoCEv2 RDMA 流量,需要更快的擁塞響應(yīng),而無(wú)需通過(guò)主機(jī)軟件。2015 年由 微軟和 Mellanox 提出的DCQCN擁塞控制算法,通常在網(wǎng)卡中實(shí)現(xiàn)。當(dāng)交換機(jī)檢測(cè)到擁塞時(shí), 將出口包打上ECN標(biāo)記, 接收端收到ECN包后, 因?yàn)橛邪l(fā)送端的QP信息, 發(fā)送擁塞通知包CNP給發(fā)送端, 這時(shí)候假如發(fā)送端收到多個(gè)接收端發(fā)來(lái)的ECN包, 發(fā)送方會(huì)使用DCQCN來(lái)降速和調(diào)度發(fā)送。一段時(shí)間發(fā)送端沒(méi)有收到CNP時(shí), 這個(gè)時(shí)候需要恢復(fù)流量。

為了使該算法發(fā)揮作用,交換機(jī)不應(yīng)在 ECN 標(biāo)記之前發(fā)送 PFC,PFC 是在極端擁塞情況下防止數(shù)據(jù)包丟失的最后手段。

阿里HPCC/HPCC++

雖然 ECN 指示網(wǎng)絡(luò)中存在擁塞,但指示的粒度非常粗,只有一種狀態(tài)可以指示數(shù)據(jù)包是否在fabric中的某臺(tái)交換機(jī)中遇到擁塞。當(dāng)發(fā)送端開(kāi)始降低速率時(shí),擁塞/隊(duì)列堆積已經(jīng)發(fā)生,這會(huì)增加網(wǎng)絡(luò)的延遲,并且擁塞控制算法(如 DCQCN)必須迅速采取行動(dòng)以避免觸發(fā) PFC。另外,依賴ECN的方案很難計(jì)算出發(fā)送速率要降低多少。

阿里在2019年的SIGCOMM上提出了HPCC(高精度擁塞控制),試圖解決以上問(wèn)題,其背后的關(guān)鍵思想是利用來(lái)自INT的精確鏈路負(fù)載信息來(lái)計(jì)算準(zhǔn)確的流量更新。數(shù)據(jù)包從發(fā)送端傳播到接收端的過(guò)程中,路徑上的每個(gè)交換機(jī)都會(huì)利用其交換 ASIC 的 INT(帶內(nèi)遙測(cè)) 功能插入一些元數(shù)據(jù),報(bào)告數(shù)據(jù)包出端口的當(dāng)前負(fù)載,包括時(shí)間戳 (ts)、隊(duì)列長(zhǎng)度 (qLen)、傳輸字節(jié) (txBytes) 和鏈路帶寬容量 (B)。當(dāng)接收方收到數(shù)據(jù)包時(shí),會(huì)將交換機(jī)記錄的所有元數(shù)據(jù)通過(guò)ACK發(fā)送給發(fā)送端。然后發(fā)送端根據(jù)帶有網(wǎng)絡(luò)負(fù)載信息的 ACK 決定如何調(diào)整其流量。

HPCC 通過(guò)利用交換機(jī)的遙測(cè)信息,可以實(shí)現(xiàn)更快的收斂、更小的fabric隊(duì)列以及發(fā)送端的公平性。HPCC++ 對(duì) HPCC 擁塞控制算法添加了額外的增強(qiáng)功能,以加快收斂速度。

谷歌CSIG

CSIG是交換機(jī)向端點(diǎn)設(shè)備發(fā)送擁塞信號(hào)的另一種方式,谷歌在 OCP 2023 中開(kāi)源了該協(xié)議。CSIG旨在以更少的數(shù)據(jù)包開(kāi)銷實(shí)現(xiàn)與 HPCC/HPCC++ 類似的目標(biāo)。CSIG 的一些顯著特征如下:

CSIG使用固定長(zhǎng)度的報(bào)頭來(lái)承載信號(hào),而 INT 使用隨跳數(shù)增長(zhǎng)的可變長(zhǎng)度報(bào)頭,這使其在帶寬和開(kāi)銷方面更加高效。

CSIG 比 INT 更具可擴(kuò)展性,因?yàn)樗褂帽容^和替換機(jī)制從路徑上的瓶頸設(shè)備收集信號(hào),而 INT 使用逐跳追加機(jī)制,要求每個(gè)設(shè)備插入自己的信息。

CSIG 標(biāo)簽在結(jié)構(gòu)上與 VLAN 標(biāo)簽相似,這使得網(wǎng)絡(luò)能夠重新利用現(xiàn)有的 VLAN 重寫邏輯來(lái)支持 CSIG 標(biāo)簽。這可以簡(jiǎn)化網(wǎng)絡(luò)內(nèi)隧道和加密的實(shí)現(xiàn)和兼容性。

現(xiàn)有的 CCA 可以使用 CSIG 信息來(lái)調(diào)整流量,以便更準(zhǔn)確地控制網(wǎng)絡(luò)和incast擁塞。

亞馬遜SRD

亞馬遜開(kāi)發(fā)了一種名為SRD (可擴(kuò)展可靠數(shù)據(jù)報(bào)) 的新傳輸協(xié)議來(lái)解決 RoCEv2 的局限性。SRD 不保留數(shù)據(jù)包順序,而是通過(guò)盡可能多的網(wǎng)絡(luò)路徑發(fā)送數(shù)據(jù)包,同時(shí)避免路徑過(guò)載。SRD 的創(chuàng)新在于有意通過(guò)多個(gè)路徑分別發(fā)包,雖然包到達(dá)后通常是亂序的,但AWS實(shí)現(xiàn)了在接收處以極快的速度進(jìn)行重新排序,最終在充分利用網(wǎng)絡(luò)吞吐能力的基礎(chǔ)上,極大地降低了傳輸延遲。

wKgaomVr4E2ATsmEAAfTN-htrXQ696.png

SRD 集成在亞馬遜的 Elastic Fabric Adapter (EFA) 中,并與商用以太網(wǎng)交換機(jī)配合使用。它使用標(biāo)準(zhǔn) ECMP 進(jìn)行多路徑負(fù)載平衡。發(fā)送方通過(guò)操作數(shù)據(jù)包封裝來(lái)控制 ECMP 路徑選擇。發(fā)送方知道每個(gè)多路徑中的擁塞情況(通過(guò)為每個(gè)路徑收集的 RTT),并且可以調(diào)節(jié)通過(guò)每個(gè)路徑發(fā)送的數(shù)量。SRD 根據(jù)傳入確認(rèn)數(shù)據(jù)包的時(shí)序和 RTT 變化所指示的速率估計(jì)來(lái)調(diào)整其每個(gè)連接的傳輸速率。

谷歌Falcon

在 2023 年 OCP 全球峰會(huì)上,谷歌開(kāi)放了其硬件輔助傳輸層 Falcon。Falcon 的構(gòu)建原理與 SRD 相同,通過(guò)多路徑連接、處理網(wǎng)卡中的無(wú)序數(shù)據(jù)包、選擇性重傳以及更快更好的基于延遲的擁塞控制 (swift) 來(lái)實(shí)現(xiàn)低延遲和高帶寬的可靠傳輸。網(wǎng)絡(luò)交換機(jī)不需要任何修改來(lái)支持該傳輸層。

wKgaomVr4E2AWrfhAAKmQkK9CqY562.png

新協(xié)議

2023年7月成立的超以太網(wǎng)聯(lián)盟(UEC)的目標(biāo)之一是優(yōu)化鏈路級(jí)和端到端網(wǎng)絡(luò)傳輸協(xié)議或創(chuàng)建新協(xié)議,以使以太網(wǎng)fabric能夠更好地處理大型 AI/ML 集群。然而,由于UEC 聯(lián)盟的創(chuàng)始成員都已在其交換機(jī)/網(wǎng)卡和主機(jī)堆棧中適應(yīng)了不同的專有解決方案,因此尚不清楚他們將以多快的速度實(shí)現(xiàn)這些目標(biāo)。

即使提出了一個(gè)新協(xié)議,也不清楚具有定制解決方案的超大規(guī)模廠商是否會(huì)立即適應(yīng)新標(biāo)準(zhǔn)。與 RDMA/RoCE 一樣,任何新的傳輸協(xié)議都需要經(jīng)歷多代才能獲得可靠的實(shí)現(xiàn)。與此同時(shí),商業(yè)交換機(jī)供應(yīng)商必須繼續(xù)關(guān)注行業(yè)發(fā)展方向,并為終端擁塞控制提供更好的遙測(cè)和擁塞信號(hào)選擇。

04總 結(jié)

本文詳細(xì)敘述了 genAI/LLM 模型的 GPU 流量模式,以及如何針對(duì)這些流量模式優(yōu)化網(wǎng)絡(luò)拓?fù)?。?dāng)前,該行業(yè)正處于為大型 GPU 集群部署以太網(wǎng)fabric的早期階段。如果packet spraying和端到端擁塞控制在 AI/ML/HPC 集群中使用的大型 IB 網(wǎng)絡(luò)表現(xiàn)依然出色,那么以太網(wǎng)fabric將受益于相同的功能。然而,在超大規(guī)模廠商確定適合自己的方案,并發(fā)布其協(xié)議(通過(guò) UEC 或獨(dú)立)以供網(wǎng)卡/交換機(jī)適應(yīng)之前,拓?fù)浜蛽砣芾砉δ苓€需要一些試驗(yàn)和調(diào)整。總的來(lái)說(shuō),以太網(wǎng)fabric和交換機(jī)供應(yīng)商的前途非常光明!

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 負(fù)載
    +關(guān)注

    關(guān)注

    2

    文章

    665

    瀏覽量

    36519
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5194

    瀏覽量

    135461
  • 拓?fù)浣Y(jié)構(gòu)

    關(guān)注

    6

    文章

    332

    瀏覽量

    41089
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3752

    瀏覽量

    52111

原文標(biāo)題:盤點(diǎn)GPU Fabric典型拓?fù)浣Y(jié)構(gòu)及擁塞控制技術(shù)

文章出處:【微信號(hào):SDNLAB,微信公眾號(hào):SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    典型的電磁爐拓?fù)?/b>結(jié)構(gòu)及應(yīng)用分析

    如此。根據(jù)美國(guó)能源部的數(shù)據(jù),電磁爐的典型效率為84%,而燃?xì)庠畹?b class='flag-5'>典型效率為40%。本文討論了兩種典型的電磁爐設(shè)計(jì)電路,即半橋串聯(lián)諧振和準(zhǔn)諧振拓?fù)?/b>。審查了這兩種高頻逆變器
    的頭像 發(fā)表于 05-21 12:15 ?1.1w次閱讀
    <b class='flag-5'>典型</b>的電磁爐<b class='flag-5'>拓?fù)?/b><b class='flag-5'>結(jié)構(gòu)</b>及應(yīng)用分析

    不同的充電拓?fù)?/b>結(jié)構(gòu)介紹

    在上一篇博客《為工業(yè)應(yīng)用選擇正確的電池充電器》中,我們討論了獨(dú)立與主機(jī)控制的充電器和外部與集成開(kāi)關(guān)FET?,F(xiàn)在讓我們來(lái)看看不同的充電拓?fù)?/b>結(jié)構(gòu)。首先,我們必須更好地理解電池充電器功能:動(dòng)態(tài)電源管理
    發(fā)表于 07-29 04:45

    合適的CAN總線拓?fù)?/b>結(jié)構(gòu)如何選擇?

    合理的總線布局等于成功的一半,但是怎樣的網(wǎng)絡(luò)拓?fù)?/b>方式才合適就變成了一個(gè)讓人頭疼的問(wèn)題。這里簡(jiǎn)單介紹幾種主流的總線拓?fù)?/b>方式,可以幫您根據(jù)需求進(jìn)行選擇。、一,直線型拓?fù)?/b>直線型拓?fù)?/b>也叫總線型
    發(fā)表于 10-24 14:24

    基于拓?fù)?/b>結(jié)構(gòu)的升壓Boost

    的平臺(tái),給老司機(jī)交流的平臺(tái)。所有文章來(lái)源于項(xiàng)目實(shí)戰(zhàn),屬于原創(chuàng)。一、拓?fù)?/b>結(jié)構(gòu)1、升壓拓?fù)?/b>如上圖,要想掌握升壓電路,必須深刻理解拓?fù)?/b>結(jié)構(gòu),幾乎所
    發(fā)表于 11-11 09:21

    常見(jiàn)網(wǎng)絡(luò)拓?fù)?/b>結(jié)構(gòu)

    常見(jiàn)網(wǎng)絡(luò)拓?fù)?/b>結(jié)構(gòu) LAN 的拓?fù)?/b>結(jié)構(gòu)定義了組織網(wǎng)絡(luò)設(shè)備的方法,LAN 有總線型
    發(fā)表于 06-11 00:40 ?5207次閱讀
    常見(jiàn)網(wǎng)絡(luò)<b class='flag-5'>拓?fù)?/b><b class='flag-5'>結(jié)構(gòu)</b>

    混合型拓?fù)?/b>結(jié)構(gòu)

    混合型拓?fù)?/b>結(jié)構(gòu)    這種網(wǎng)絡(luò)拓?fù)?/b>結(jié)構(gòu)是由前面所講的星型結(jié)構(gòu)和總線型結(jié)構(gòu)
    發(fā)表于 01-08 10:23 ?2811次閱讀

    拓?fù)?/b>結(jié)構(gòu),拓?fù)?/b>結(jié)構(gòu)有哪些類型?

    拓?fù)?/b>結(jié)構(gòu),計(jì)算機(jī)網(wǎng)絡(luò)的拓?fù)?/b>結(jié)構(gòu)有哪些類型? 計(jì)算機(jī)網(wǎng)絡(luò)的拓?fù)?/b>結(jié)構(gòu) 是指網(wǎng)絡(luò)中各個(gè)站點(diǎn)相互連接
    發(fā)表于 03-22 11:20 ?1.3w次閱讀

    什么是Fabric, Switched交換結(jié)構(gòu)

    什么是Fabric, Switched交換結(jié)構(gòu) 考慮一種多連接裝置,連接中一個(gè)網(wǎng)孔上一邊連接輸入,另一邊連接輸出。任意輸入可立刻交換為任意輸出
    發(fā)表于 04-03 14:39 ?2319次閱讀

    什么是電路拓?fù)?/b>結(jié)構(gòu)_多種pfc電路的拓?fù)?/b>結(jié)構(gòu)介紹

    本文介紹了什么是電路拓?fù)?/b>結(jié)構(gòu),對(duì)PFC電路進(jìn)行了詳細(xì)介紹,最后介紹了多種無(wú)源功率因數(shù)拓?fù)?/b>結(jié)構(gòu)與有源功率因數(shù)拓?fù)?/b>
    發(fā)表于 01-23 15:26 ?5.6w次閱讀
    什么是電路<b class='flag-5'>拓?fù)?/b><b class='flag-5'>結(jié)構(gòu)</b>_多種pfc電路的<b class='flag-5'>拓?fù)?/b><b class='flag-5'>結(jié)構(gòu)</b>介紹

    典型應(yīng)用及常見(jiàn)拓?fù)?/b>特點(diǎn)介紹

    典型應(yīng)用及常見(jiàn)拓?fù)?/b>
    的頭像 發(fā)表于 08-22 01:11 ?3730次閱讀

    AMD Infinity Fabric升級(jí)后可支持CPU-GPU之間的連接

    在AMD的財(cái)務(wù)分析日上,AMD 透露將會(huì)升級(jí)其Infinity Fabric總線,不僅支持CPU-CPU以及GPU-GPU之間的連接,而且還將支持CPU-GPU之間的連接。
    的頭像 發(fā)表于 03-09 14:24 ?3411次閱讀

    AMD Infinity Fabric總線升級(jí),最多支持8個(gè)GPU芯片的連接

    在AMD的財(cái)務(wù)分析日上,AMD 透露將會(huì)升級(jí)其Infinity Fabric總線,不僅支持CPU-CPU以及GPU-GPU之間的連接,而且還將支持CPU-GPU之間的連接。
    的頭像 發(fā)表于 03-09 15:02 ?4336次閱讀

    典型的線性音頻放大器拓?fù)?/b>結(jié)構(gòu)

    ,這些放大器都需要具有極高的效率,以實(shí)現(xiàn)更長(zhǎng)時(shí)間的電池壽命。為了迎接這種挑戰(zhàn),廣大設(shè)計(jì)人員將使用 G 類音頻放大器拓?fù)?/b>結(jié)構(gòu)。 ? 典型的線性音頻放大器拓?fù)?/b>
    的頭像 發(fā)表于 11-23 10:41 ?2644次閱讀

    拓?fù)?/b>結(jié)構(gòu)是什么意思

    拓?fù)?/b>結(jié)構(gòu)是什么意思 拓?fù)?/b>結(jié)構(gòu)圖是指由網(wǎng)絡(luò)節(jié)點(diǎn)設(shè)備和通信介質(zhì)構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)圖。 在選擇拓?fù)?/b>
    發(fā)表于 03-07 13:41 ?5738次閱讀

    拓?fù)?/b>視圖與實(shí)際拓?fù)?/b>結(jié)構(gòu)間的差異

    簡(jiǎn)介 拓?fù)?/b>視圖是硬件和網(wǎng)絡(luò)編輯器的三個(gè)工作區(qū)中的一個(gè)。在此處可執(zhí)行以下任務(wù): 顯示以太網(wǎng)拓?fù)?/b> 組態(tài)以太網(wǎng)拓?fù)?/b> 標(biāo)識(shí)出指定拓?fù)?/b>結(jié)構(gòu)與實(shí)際
    的頭像 發(fā)表于 09-10 09:56 ?2068次閱讀
    <b class='flag-5'>拓?fù)?/b>視圖與實(shí)際<b class='flag-5'>拓?fù)?/b><b class='flag-5'>結(jié)構(gòu)</b>間的差異