欧美成人A级毛片,五月婷婷丁香涩国产在线观看,特级毛片、A片

當(dāng)前，許多超大規(guī)模廠商正在競(jìng)相構(gòu)建大型 GPU 集群，以適應(yīng)GenAI訓(xùn)練工作負(fù)載。本文探討了針對(duì)GenAI訓(xùn)練工作負(fù)載進(jìn)行優(yōu)化的各種網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)，如Meta的Rail-Only 拓?fù)浜虳ragonfly拓?fù)?，以及網(wǎng)絡(luò)中可能存在的一些擁塞點(diǎn)和各種擁塞控制解決方案。

01GPU Fabric拓?fù)?/strong>

有兩種構(gòu)建 GPU 拓?fù)涞姆椒ǎ?/p>
# Fat-tree CLOS 具有非阻塞的any-to-any連接，不依賴于正在訓(xùn)練的模型。

這是公有云提供商的首選方案，其 GPU 集群可用于訓(xùn)練各種模型，包括具有大型嵌入表的推薦模型，這些嵌入表可跨所有 GPU 上創(chuàng)建 all-to-all 通信。然而，為成千上萬(wàn)的 GPU 提供非阻塞連接是非常昂貴的，與扁平的spine/leaf拓?fù)湎啾?，它需要更?a href="http://m.makelele.cn/v/tag/1392/" target="_blank">交換機(jī)和更多的跳數(shù)。這些拓?fù)涓锌赡艹霈F(xiàn)擁塞和長(zhǎng)尾延遲。

# 針對(duì)特定訓(xùn)練工作負(fù)載優(yōu)化的拓?fù)洹?/strong>

這種方法在為 LLM 訓(xùn)練工作負(fù)載構(gòu)建專用 GPU 集群的超大規(guī)模廠商中很流行。優(yōu)化拓?fù)涫辜焊咝铱沙掷m(xù)。例如谷歌使用的3D torus和optical spine交換機(jī)，以及 Meta 使用的rail-optimized leaf交換機(jī)。一些 HPC 架構(gòu)還使用dragonfly拓?fù)鋪?lái)優(yōu)化 GPU 之間的跳數(shù)。

Meta：Rail-Only 拓?fù)?/strong>

Meta的一篇論文（《Meta和MIT最新網(wǎng)絡(luò)架構(gòu)研究，對(duì)傳統(tǒng)架構(gòu)提出挑戰(zhàn)》）分析了大型 GPU 集群中的流量模式。他們將GPU 分組為高帶寬 (HB) 域集群，每個(gè)集群有 256 個(gè) GPU。256 個(gè) GPU 是GH200超級(jí)計(jì)算機(jī)的一部分，其中所有GPU 都通過(guò)NVSwitch層次架構(gòu)連接。HB 域通過(guò)rail-optimized交換機(jī)連接。從GPT-3/OPT-175B 模型的流量模式分析可得出以下結(jié)論：

整個(gè)集群99%的GPU對(duì)不承載任何流量；

論文中的熱圖反映了觀察結(jié)果。該論文提出，具有rail -only交換機(jī)的拓?fù)淇梢耘c非阻塞 CLOS 拓?fù)湟粯訄?zhí)行。在rail -only交換機(jī)中，所有 M 個(gè) HB 域中的第 N 個(gè) GPU 通過(guò) 400Gbps 鏈路連接到 M x400G rail交換機(jī)。

| 訓(xùn)練 GPT-3 模型時(shí) GPU 對(duì)之間的流量模式

在下面的拓?fù)渲?，?dāng) GPU 需要將數(shù)據(jù)移動(dòng)到不同rail中的另一臺(tái)服務(wù)器GPU 時(shí)，它會(huì)首先使用 NVlink 將數(shù)據(jù)移動(dòng)到與目標(biāo) GPU 屬于同一rail的服務(wù)器內(nèi) GPU 內(nèi)存中。之后，數(shù)據(jù)可以通過(guò)rail交換機(jī)傳送到目的地。這可以實(shí)現(xiàn)消息聚合和網(wǎng)絡(luò)流量?jī)?yōu)化。

| 具有rail-only交換機(jī)的 1024 個(gè) GPU 集群的拓?fù)?/p>

| 具有rail 和spine交換機(jī)的 1024 個(gè) GPU 集群的 CLOS 拓?fù)?/p>
rail-optimized連接適用于大多數(shù) LLM/Transformer模型。對(duì)于大于1024個(gè) GPU的集群，需要使用spine交換機(jī)來(lái)實(shí)現(xiàn) GPU 間的數(shù)據(jù)并行通信。

| 具有 Rail-Spine 交換機(jī)的 2048 GPU 集群

Dragonfly拓?fù)?/strong>

Dragonfly是由John Kim等人在2008年的論文Technology-Driven, Highly-Scalable Dragonfly Topology中提出，它的特點(diǎn)是網(wǎng)絡(luò)直徑小、成本較低，早期主要用于HPC集群。在這種拓?fù)浣Y(jié)構(gòu)中，Pod 或交換機(jī)組連接到服務(wù)器，這些 Pod 還通過(guò)高帶寬鏈路直接相互連接。Dragonfly比傳統(tǒng)的leaf-spine拓?fù)湫枰慕粨Q機(jī)更少，但當(dāng)部署用于以太網(wǎng)/IP通信時(shí)，它也面臨著一定的挑戰(zhàn)。

| Dragonfly 拓?fù)涫纠?/p>
Dragonfly網(wǎng)絡(luò)在擴(kuò)展性方面存在問(wèn)題，每次需要增加網(wǎng)絡(luò)容量時(shí)，都必須對(duì)Dragonfly網(wǎng)絡(luò)進(jìn)行重新布線，這增加了網(wǎng)絡(luò)的復(fù)雜性和管理難度。

在 Hot Interconnects 2023 上，Bill Dally 博士提出了一種拓?fù)?，其中組和組之間可以直接連接到光電路交換機(jī)（OCS）。這樣，就算添加額外的組、更改直接鏈路，也不會(huì)對(duì)連接性造成太多的干擾。通過(guò)引入OCS技術(shù)，可以實(shí)現(xiàn)布線自動(dòng)化，從而有效解決了擴(kuò)展過(guò)程中重新布線的難題，提高了網(wǎng)絡(luò)的可管理性和靈活性。

02Fabric擁塞

無(wú)損傳輸對(duì)于優(yōu)化訓(xùn)練性能至關(guān)重要。任何網(wǎng)絡(luò)丟失都會(huì)觸發(fā) RoCE 中使用標(biāo)準(zhǔn)NIC的 go-back-N 重傳，這會(huì)浪費(fèi)帶寬并導(dǎo)致長(zhǎng)尾延遲。

雖然可以在所有鏈路上啟用鏈路級(jí)PFC，但如果分配的緩沖區(qū)在隊(duì)列之間進(jìn)行共享，那么擴(kuò)展的PFC可能會(huì)造成排隊(duì)阻塞、浪費(fèi)緩沖區(qū)空間、死鎖、PFC風(fēng)暴等。PFC 應(yīng)作為防止流量丟失的最后手段。

我們先看看網(wǎng)絡(luò)中的擁塞點(diǎn)：

| 網(wǎng)絡(luò)擁塞點(diǎn)

NIC -> Leaf Links

在rail-optimized的leaf 交換機(jī)中，對(duì)于服務(wù)器間流量，NCCL/PXN 利用節(jié)點(diǎn)內(nèi)的 NVSwitch 將數(shù)據(jù)移動(dòng)到與目標(biāo)位于同一rail上的 GPU，然后在不跨越rail的情況下將數(shù)據(jù)發(fā)送到目標(biāo)GPU，從而實(shí)現(xiàn)NIC到leaf的流量?jī)?yōu)化。

雖然每個(gè) GPU 可以向其rail交換機(jī)發(fā)送 400Gbps 的數(shù)據(jù)，但并非所有 GPU 到leaf交換機(jī)的鏈路都是完全飽和的，在服務(wù)器到leaf鏈路之間會(huì)產(chǎn)生不均勻的帶寬分配。因此，一些超大規(guī)模企業(yè)不喜歡rail-optimized的leaf交換機(jī)，他們更喜歡在從服務(wù)器到leaf交換機(jī)的所有可用鏈路上對(duì) GPU 流量進(jìn)行負(fù)載平衡。

Leaf -> Spine Links

在rail-optimized網(wǎng)絡(luò)中，leaf-spine主要是數(shù)據(jù)并行流量，這些流具有較高的帶寬并且持續(xù)時(shí)間較長(zhǎng)。例如，每個(gè)H100 GPU 具有 80GB 內(nèi)存，梯度可能會(huì)占用該內(nèi)存的 1/10 (約8GB)。當(dāng) GPU 使用單個(gè) QP（流）通過(guò) 400Gbps 上行鏈路發(fā)送 8GB 數(shù)據(jù)時(shí)，會(huì)產(chǎn)生大于160ms 的流量，需要由rail交換機(jī)處理。

當(dāng)可以通過(guò)這些路徑到達(dá)目的地時(shí)，ECMP 會(huì)在leaf和spine鏈路之間的可用并行等價(jià)路徑上分發(fā)數(shù)據(jù)包。ECMP 旨在分散網(wǎng)絡(luò)流量以提高鏈路利用率并防止擁塞。交換機(jī)使用哈希函數(shù)來(lái)決定發(fā)送數(shù)據(jù)包的路徑。然而，當(dāng)系統(tǒng)熵值非常低時(shí)，哈?？赡軙?huì)導(dǎo)致并行鏈路利用率不均勻以及某些鏈路嚴(yán)重?fù)砣臎_突。某些流量模式在使用 ECMP 負(fù)載均衡時(shí)，鏈路利用率可能低于 50%。

Spine -> Leaf Links

Spine到Leaf的擁塞可能在以下情況時(shí)發(fā)生：

spine交換機(jī)和每個(gè)leaf 交換機(jī)之間可能存在多個(gè)并行鏈路，用于負(fù)載均衡鏈路間流量的 ECMP 可能會(huì)造成鏈路利用率不均勻。

In-cast流量。Incast 是一種流量模式，其中許多流匯聚到交換機(jī)的同一輸出口上，耗盡該接口的緩沖區(qū)空間并導(dǎo)致數(shù)據(jù)包丟失。當(dāng) GPU 集群中并行運(yùn)行多個(gè)訓(xùn)練任務(wù)時(shí)，也可能會(huì)發(fā)生這種情況。

Leaf -> NIC links

它們承載高帶寬流水線并行和數(shù)據(jù)并行流量。

流水線并行流量負(fù)載在很大程度上取決于模型架構(gòu)和分區(qū)。它具有高帶寬和突發(fā)性，GPU 之間具有微秒突發(fā)性。這兩種流量模式結(jié)合在一起可能導(dǎo)致鏈路發(fā)生incast情況。

03擁塞控制解決方案

下面列出的各種技術(shù)可用于緩解 GPU fabric中的擁塞，最終的部署取決于支持這些協(xié)議的網(wǎng)卡/交換機(jī)以及GPU集群的規(guī)模。

提高鏈路利用率：如果任意兩臺(tái)交換機(jī)或交換機(jī)/網(wǎng)卡之間的所有并行路徑都可以到達(dá)目的地，則將流量均勻分布在這些路徑上。動(dòng)態(tài)/自適應(yīng)負(fù)載均衡和數(shù)據(jù)包噴灑（packet spraying）就屬于這一類。更多到達(dá)目的地的路徑將有助于減少網(wǎng)絡(luò)交換機(jī)中的隊(duì)列堆積。

發(fā)送端驅(qū)動(dòng)的擁塞控制算法 (CCA) 依賴于 ECN 或來(lái)自交換機(jī)的實(shí)時(shí)遙測(cè)。根據(jù)遙測(cè)數(shù)據(jù)，發(fā)送端將調(diào)節(jié)發(fā)送給fabric的流量。

接收端驅(qū)動(dòng)的擁塞控制：接收端向發(fā)送端分配用于傳輸數(shù)據(jù)包的Credit。

Scheduled fabric。

可以更好地處理?yè)砣男聜鬏攨f(xié)議。

動(dòng)態(tài)/自適應(yīng)負(fù)載均衡

當(dāng)目的地可以使用并行鏈路到達(dá)時(shí)，以太網(wǎng)交換機(jī)中的動(dòng)態(tài)/自適應(yīng)負(fù)載均衡會(huì)動(dòng)態(tài)地將流量從擁塞鏈路轉(zhuǎn)移到空閑鏈路。為了不對(duì)流內(nèi)的數(shù)據(jù)包重新排序，大多數(shù)實(shí)現(xiàn)都會(huì)尋找流中的間隔（gap）來(lái)進(jìn)行負(fù)載均衡。如果gap足夠大，就表示這個(gè)gap之前的數(shù)據(jù)包已經(jīng)傳輸了很遠(yuǎn)，不用擔(dān)心通過(guò)空閑鏈路發(fā)送的數(shù)據(jù)包會(huì)比之前的數(shù)據(jù)包提前到達(dá)目的地。

動(dòng)態(tài)負(fù)載均衡的一種極端形式是packet-level spraying。

packet spraying

另一種流行的方法是packet spraying。Fabric中的每個(gè)交換機(jī)均勻地在所有可用(且不擁塞)的并行鏈路上進(jìn)行packet spraying，可以將并行鏈路利用率提高到90%以上。當(dāng)一個(gè)流 (QP) 的數(shù)據(jù)包被spray時(shí)，它們會(huì)采用不同的路徑通過(guò)fabric，經(jīng)歷不同的擁塞延遲，并且可能會(huì)無(wú)序地到達(dá)目標(biāo) GPU。

NIC 應(yīng)具有處理無(wú)序 RDMA 事務(wù)的邏輯/硬件。Nvidia 的 ConnectX NIC可以處理無(wú)序 (OOO) RDMA 操作。然而，它們?cè)诓粨p失性能的情況下支持的重新排序量是有限的。Nvidia 對(duì)此功能提供有限的現(xiàn)場(chǎng)支持，尚不清楚其最新版本的NIC是否正式支持?jǐn)?shù)據(jù)包重新排序。

云提供商的另一種選擇是使用支持 RDMA 操作重新排序的硬件來(lái)構(gòu)建自己的網(wǎng)卡，并在客戶構(gòu)建的 GPU 服務(wù)器中使用它們。在構(gòu)建自定義NIC時(shí)，使用 Nvidia 的 Bluefield DPU 也是一種選擇。Bluefield支持無(wú)序RDMA操作，(很可能)將它們存儲(chǔ)在本地內(nèi)存中，然后在重新排序事務(wù)時(shí)將數(shù)據(jù)包寫入GPU內(nèi)存。然而，與標(biāo)準(zhǔn)NIC中的簡(jiǎn)單 ASIC/FPGA 相比，DPU更加昂貴且耗電。除了數(shù)據(jù)包排序之外，它們還有許多 AI/ML 訓(xùn)練工作負(fù)載并不需要的功能。如果 Bluefield 確實(shí)使用本地內(nèi)存進(jìn)行重新排序，則會(huì)增加事務(wù)的額外延遲，并浪費(fèi) NIC 中用于存儲(chǔ)數(shù)據(jù)包的內(nèi)存資源，而數(shù)據(jù)包在重新排序時(shí)可以存儲(chǔ)在 GPU 內(nèi)存中。

亞馬遜/微軟的自定義NIC支持?jǐn)?shù)據(jù)包重新排序。其他交換機(jī)供應(yīng)商也可能正在構(gòu)建可以支持?jǐn)?shù)據(jù)包重新排序的智能網(wǎng)卡（或網(wǎng)卡中使用的 ASIC）。

Scheduled Fabric

為了順利工作，Scheduled Fabric在每個(gè)端點(diǎn)leaf交換機(jī)中都需要大量入口緩沖/狀態(tài)，以便對(duì)發(fā)往集群中的所有端點(diǎn) GPU 的數(shù)據(jù)包進(jìn)行排隊(duì)，它還需要在這些端點(diǎn)交換機(jī)上為所有無(wú)損隊(duì)列提供大的出口緩沖區(qū)。

在傳輸數(shù)據(jù)包之前，有一個(gè)額外的 RTT 延遲（用于端點(diǎn)交換機(jī)之間的請(qǐng)求-授予握手）。此外，該方案目前還沒(méi)有明確的標(biāo)準(zhǔn)，每個(gè)供應(yīng)商都有自己的專有協(xié)議，控制平面管理非常復(fù)雜，尤其是當(dāng)某些鏈路/交換機(jī)發(fā)生故障并需要增加額外容量時(shí)，這需要客戶對(duì)每個(gè)供應(yīng)商的產(chǎn)品有深入的了解。供應(yīng)商鎖定的風(fēng)險(xiǎn)很高。

EQDS

邊緣排隊(duì)數(shù)據(jù)報(bào)服務(wù)（EQDS，Edge-Queued Datagram Service）是一種為數(shù)據(jù)中心提供的新數(shù)據(jù)報(bào)服務(wù)，它將幾乎所有隊(duì)列從核心網(wǎng)絡(luò)轉(zhuǎn)移到發(fā)送主機(jī)。這使得它能夠支持多個(gè)（沖突的）高層協(xié)議，同時(shí)只根據(jù)任何接收端驅(qū)動(dòng)的信用/credit方案向網(wǎng)絡(luò)發(fā)送數(shù)據(jù)包。這意味著發(fā)送端只有在從接收端收到Credit時(shí)才能發(fā)送數(shù)據(jù)包，而接收端只有在有足夠的緩沖區(qū)空間時(shí)才授予Credit，并計(jì)量授予不超過(guò)接收端的訪問(wèn)鏈路速度。這樣，網(wǎng)絡(luò)交換機(jī)可以使用非常小的緩沖區(qū)運(yùn)行，并最大限度地減少擁塞/數(shù)據(jù)包丟失。

EQDS 使用packet spraying來(lái)均衡網(wǎng)絡(luò)核心中的負(fù)載，避免流沖突，并提高吞吐量。此外，這個(gè)協(xié)議的優(yōu)點(diǎn)是它沒(méi)有引入另一個(gè)傳輸層協(xié)議，它通過(guò)動(dòng)態(tài)隧道向現(xiàn)有傳輸層提供數(shù)據(jù)報(bào)服務(wù)。

EQDS 可以在端點(diǎn) NIC 的軟件中實(shí)現(xiàn)。但是，對(duì)于高帶寬服務(wù)器，應(yīng)該在 NIC 硬件中實(shí)現(xiàn)。Broadcom 收購(gòu)了發(fā)布此協(xié)議的公司，并且可能正在構(gòu)建具有此功能的 NIC 硬件。

DCQCN

對(duì)于 RoCEv2 RDMA 流量，需要更快的擁塞響應(yīng)，而無(wú)需通過(guò)主機(jī)軟件。2015 年由微軟和 Mellanox 提出的DCQCN擁塞控制算法，通常在網(wǎng)卡中實(shí)現(xiàn)。當(dāng)交換機(jī)檢測(cè)到擁塞時(shí), 將出口包打上ECN標(biāo)記, 接收端收到ECN包后, 因?yàn)橛邪l(fā)送端的QP信息, 發(fā)送擁塞通知包CNP給發(fā)送端, 這時(shí)候假如發(fā)送端收到多個(gè)接收端發(fā)來(lái)的ECN包, 發(fā)送方會(huì)使用DCQCN來(lái)降速和調(diào)度發(fā)送。一段時(shí)間發(fā)送端沒(méi)有收到CNP時(shí), 這個(gè)時(shí)候需要恢復(fù)流量。

為了使該算法發(fā)揮作用，交換機(jī)不應(yīng)在 ECN 標(biāo)記之前發(fā)送 PFC，PFC 是在極端擁塞情況下防止數(shù)據(jù)包丟失的最后手段。

阿里HPCC/HPCC++

雖然 ECN 指示網(wǎng)絡(luò)中存在擁塞，但指示的粒度非常粗，只有一種狀態(tài)可以指示數(shù)據(jù)包是否在fabric中的某臺(tái)交換機(jī)中遇到擁塞。當(dāng)發(fā)送端開(kāi)始降低速率時(shí)，擁塞/隊(duì)列堆積已經(jīng)發(fā)生，這會(huì)增加網(wǎng)絡(luò)的延遲，并且擁塞控制算法（如 DCQCN）必須迅速采取行動(dòng)以避免觸發(fā) PFC。另外，依賴ECN的方案很難計(jì)算出發(fā)送速率要降低多少。

阿里在2019年的SIGCOMM上提出了HPCC（高精度擁塞控制），試圖解決以上問(wèn)題，其背后的關(guān)鍵思想是利用來(lái)自INT的精確鏈路負(fù)載信息來(lái)計(jì)算準(zhǔn)確的流量更新。數(shù)據(jù)包從發(fā)送端傳播到接收端的過(guò)程中，路徑上的每個(gè)交換機(jī)都會(huì)利用其交換 ASIC 的 INT（帶內(nèi)遙測(cè)）功能插入一些元數(shù)據(jù)，報(bào)告數(shù)據(jù)包出端口的當(dāng)前負(fù)載，包括時(shí)間戳 (ts)、隊(duì)列長(zhǎng)度 (qLen)、傳輸字節(jié) (txBytes) 和鏈路帶寬容量 (B)。當(dāng)接收方收到數(shù)據(jù)包時(shí)，會(huì)將交換機(jī)記錄的所有元數(shù)據(jù)通過(guò)ACK發(fā)送給發(fā)送端。然后發(fā)送端根據(jù)帶有網(wǎng)絡(luò)負(fù)載信息的 ACK 決定如何調(diào)整其流量。

HPCC 通過(guò)利用交換機(jī)的遙測(cè)信息，可以實(shí)現(xiàn)更快的收斂、更小的fabric隊(duì)列以及發(fā)送端的公平性。HPCC++ 對(duì) HPCC 擁塞控制算法添加了額外的增強(qiáng)功能，以加快收斂速度。

谷歌CSIG

CSIG是交換機(jī)向端點(diǎn)設(shè)備發(fā)送擁塞信號(hào)的另一種方式，谷歌在 OCP 2023 中開(kāi)源了該協(xié)議。CSIG旨在以更少的數(shù)據(jù)包開(kāi)銷實(shí)現(xiàn)與 HPCC/HPCC++ 類似的目標(biāo)。CSIG 的一些顯著特征如下：

CSIG使用固定長(zhǎng)度的報(bào)頭來(lái)承載信號(hào)，而 INT 使用隨跳數(shù)增長(zhǎng)的可變長(zhǎng)度報(bào)頭，這使其在帶寬和開(kāi)銷方面更加高效。

CSIG 比 INT 更具可擴(kuò)展性，因?yàn)樗褂帽容^和替換機(jī)制從路徑上的瓶頸設(shè)備收集信號(hào)，而 INT 使用逐跳追加機(jī)制，要求每個(gè)設(shè)備插入自己的信息。

CSIG 標(biāo)簽在結(jié)構(gòu)上與 VLAN 標(biāo)簽相似，這使得網(wǎng)絡(luò)能夠重新利用現(xiàn)有的 VLAN 重寫邏輯來(lái)支持 CSIG 標(biāo)簽。這可以簡(jiǎn)化網(wǎng)絡(luò)內(nèi)隧道和加密的實(shí)現(xiàn)和兼容性。

現(xiàn)有的 CCA 可以使用 CSIG 信息來(lái)調(diào)整流量，以便更準(zhǔn)確地控制網(wǎng)絡(luò)和incast擁塞。

亞馬遜SRD

亞馬遜開(kāi)發(fā)了一種名為SRD (可擴(kuò)展可靠數(shù)據(jù)報(bào)) 的新傳輸協(xié)議來(lái)解決 RoCEv2 的局限性。SRD 不保留數(shù)據(jù)包順序，而是通過(guò)盡可能多的網(wǎng)絡(luò)路徑發(fā)送數(shù)據(jù)包，同時(shí)避免路徑過(guò)載。SRD 的創(chuàng)新在于有意通過(guò)多個(gè)路徑分別發(fā)包，雖然包到達(dá)后通常是亂序的，但AWS實(shí)現(xiàn)了在接收處以極快的速度進(jìn)行重新排序，最終在充分利用網(wǎng)絡(luò)吞吐能力的基礎(chǔ)上，極大地降低了傳輸延遲。

SRD 集成在亞馬遜的 Elastic Fabric Adapter (EFA) 中，并與商用以太網(wǎng)交換機(jī)配合使用。它使用標(biāo)準(zhǔn) ECMP 進(jìn)行多路徑負(fù)載平衡。發(fā)送方通過(guò)操作數(shù)據(jù)包封裝來(lái)控制 ECMP 路徑選擇。發(fā)送方知道每個(gè)多路徑中的擁塞情況（通過(guò)為每個(gè)路徑收集的 RTT），并且可以調(diào)節(jié)通過(guò)每個(gè)路徑發(fā)送的數(shù)量。SRD 根據(jù)傳入確認(rèn)數(shù)據(jù)包的時(shí)序和 RTT 變化所指示的速率估計(jì)來(lái)調(diào)整其每個(gè)連接的傳輸速率。

谷歌Falcon

在 2023 年 OCP 全球峰會(huì)上，谷歌開(kāi)放了其硬件輔助傳輸層 Falcon。Falcon 的構(gòu)建原理與 SRD 相同，通過(guò)多路徑連接、處理網(wǎng)卡中的無(wú)序數(shù)據(jù)包、選擇性重傳以及更快更好的基于延遲的擁塞控制 (swift) 來(lái)實(shí)現(xiàn)低延遲和高帶寬的可靠傳輸。網(wǎng)絡(luò)交換機(jī)不需要任何修改來(lái)支持該傳輸層。

新協(xié)議

2023年7月成立的超以太網(wǎng)聯(lián)盟（UEC）的目標(biāo)之一是優(yōu)化鏈路級(jí)和端到端網(wǎng)絡(luò)傳輸協(xié)議或創(chuàng)建新協(xié)議，以使以太網(wǎng)fabric能夠更好地處理大型 AI/ML 集群。然而，由于UEC 聯(lián)盟的創(chuàng)始成員都已在其交換機(jī)/網(wǎng)卡和主機(jī)堆棧中適應(yīng)了不同的專有解決方案，因此尚不清楚他們將以多快的速度實(shí)現(xiàn)這些目標(biāo)。

即使提出了一個(gè)新協(xié)議，也不清楚具有定制解決方案的超大規(guī)模廠商是否會(huì)立即適應(yīng)新標(biāo)準(zhǔn)。與 RDMA/RoCE 一樣，任何新的傳輸協(xié)議都需要經(jīng)歷多代才能獲得可靠的實(shí)現(xiàn)。與此同時(shí)，商業(yè)交換機(jī)供應(yīng)商必須繼續(xù)關(guān)注行業(yè)發(fā)展方向，并為終端擁塞控制提供更好的遙測(cè)和擁塞信號(hào)選擇。

04總結(jié)

本文詳細(xì)敘述了 genAI/LLM 模型的 GPU 流量模式，以及如何針對(duì)這些流量模式優(yōu)化網(wǎng)絡(luò)拓?fù)?。?dāng)前，該行業(yè)正處于為大型 GPU 集群部署以太網(wǎng)fabric的早期階段。如果packet spraying和端到端擁塞控制在 AI/ML/HPC 集群中使用的大型 IB 網(wǎng)絡(luò)表現(xiàn)依然出色，那么以太網(wǎng)fabric將受益于相同的功能。然而，在超大規(guī)模廠商確定適合自己的方案，并發(fā)布其協(xié)議（通過(guò) UEC 或獨(dú)立）以供網(wǎng)卡/交換機(jī)適應(yīng)之前，拓?fù)浜蛽砣芾砉δ苓€需要一些試驗(yàn)和調(diào)整。總的來(lái)說(shuō)，以太網(wǎng)fabric和交換機(jī)供應(yīng)商的前途非常光明！

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

負(fù)載

負(fù)載

+關(guān)注

關(guān)注
2

文章
665

瀏覽量
36519

gpu

gpu

+關(guān)注

關(guān)注
28

文章
5194

瀏覽量
135461

拓?fù)浣Y(jié)構(gòu)

拓?fù)浣Y(jié)構(gòu)

+關(guān)注

關(guān)注
6

文章
332

瀏覽量
41089

模型

模型

+關(guān)注

關(guān)注
1

文章
3752

瀏覽量
52111

原文標(biāo)題：盤點(diǎn)GPU Fabric典型拓?fù)浣Y(jié)構(gòu)及擁塞控制技術(shù)

文章出處：【微信號(hào)：SDNLAB，微信公眾號(hào)：SDNLAB】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

收藏人收藏

掃一掃，分享給好友

復(fù)制鏈接分享

加入交流群

掃碼添加小助手

加入工程師交流群

評(píng)論

發(fā)布評(píng)論請(qǐng)先登錄

相關(guān)推薦

熱點(diǎn)推薦

典型的電磁爐拓?fù)?/b>結(jié)構(gòu)及應(yīng)用分析

如此。根據(jù)美國(guó)能源部的數(shù)據(jù)，電磁爐的典型效率為84％，而燃?xì)庠畹?b class='flag-5'>典型效率為40％。本文討論了兩種典型的電磁爐設(shè)計(jì)電路，即半橋串聯(lián)諧振和準(zhǔn)諧振拓?fù)?/b>。審查了這兩種高頻逆變器

發(fā)表于 05-21 12:15 ?1.1w次閱讀

不同的充電拓?fù)?/b>結(jié)構(gòu)介紹

在上一篇博客《為工業(yè)應(yīng)用選擇正確的電池充電器》中，我們討論了獨(dú)立與主機(jī)控制的充電器和外部與集成開(kāi)關(guān)FET?，F(xiàn)在讓我們來(lái)看看不同的充電拓?fù)?/b>結(jié)構(gòu)。首先，我們必須更好地理解電池充電器功能：動(dòng)態(tài)電源管理

發(fā)表于 07-29 04:45

合適的CAN總線拓?fù)?/b>結(jié)構(gòu)如何選擇？

合理的總線布局等于成功的一半，但是怎樣的網(wǎng)絡(luò)拓?fù)?/b>方式才合適就變成了一個(gè)讓人頭疼的問(wèn)題。這里簡(jiǎn)單介紹幾種主流的總線拓?fù)?/b>方式，可以幫您根據(jù)需求進(jìn)行選擇。、一，直線型拓?fù)?/b>直線型拓?fù)?/b>也叫總線型

發(fā)表于 10-24 14:24

基于拓?fù)?/b>結(jié)構(gòu)的升壓Boost

的平臺(tái)，給老司機(jī)交流的平臺(tái)。所有文章來(lái)源于項(xiàng)目實(shí)戰(zhàn)，屬于原創(chuàng)。一、拓?fù)?/b>結(jié)構(gòu)1、升壓拓?fù)?/b>如上圖，要想掌握升壓電路，必須深刻理解拓?fù)?/b>結(jié)構(gòu)，幾乎所

發(fā)表于 11-11 09:21

常見(jiàn)網(wǎng)絡(luò)拓?fù)?/b>結(jié)構(gòu)

常見(jiàn)網(wǎng)絡(luò)拓?fù)?/b>結(jié)構(gòu) LAN 的拓?fù)?/b>結(jié)構(gòu)定義了組織網(wǎng)絡(luò)設(shè)備的方法，LAN 有總線型

發(fā)表于 06-11 00:40 ?5207次閱讀

混合型拓?fù)?/b>結(jié)構(gòu)

混合型拓?fù)?/b>結(jié)構(gòu) 這種網(wǎng)絡(luò)拓?fù)?/b>結(jié)構(gòu)是由前面所講的星型結(jié)構(gòu)和總線型結(jié)構(gòu)的

發(fā)表于 01-08 10:23 ?2811次閱讀

拓?fù)?/b>結(jié)構(gòu),拓?fù)?/b>結(jié)構(gòu)有哪些類型?

拓?fù)?/b>結(jié)構(gòu),計(jì)算機(jī)網(wǎng)絡(luò)的拓?fù)?/b>結(jié)構(gòu)有哪些類型? 計(jì)算機(jī)網(wǎng)絡(luò)的拓?fù)?/b>結(jié)構(gòu) 是指網(wǎng)絡(luò)中各個(gè)站點(diǎn)相互連接

發(fā)表于 03-22 11:20 ?1.3w次閱讀

什么是Fabric, Switched交換結(jié)構(gòu)

什么是Fabric, Switched交換結(jié)構(gòu) 考慮一種多連接裝置,連接中一個(gè)網(wǎng)孔上一邊連接輸入,另一邊連接輸出。任意輸入可立刻交換為任意輸出

發(fā)表于 04-03 14:39 ?2319次閱讀

什么是電路拓?fù)?/b>結(jié)構(gòu)_多種pfc電路的拓?fù)?/b>結(jié)構(gòu)介紹

本文介紹了什么是電路拓?fù)?/b>結(jié)構(gòu)，對(duì)PFC電路進(jìn)行了詳細(xì)介紹，最后介紹了多種無(wú)源功率因數(shù)拓?fù)?/b>結(jié)構(gòu)與有源功率因數(shù)拓?fù)?/b>

發(fā)表于 01-23 15:26 ?5.6w次閱讀

典型應(yīng)用及常見(jiàn)拓?fù)?/b>特點(diǎn)介紹

典型應(yīng)用及常見(jiàn)拓?fù)?/b>

發(fā)表于 08-22 01:11 ?3730次閱讀

AMD Infinity Fabric升級(jí)后可支持CPU-GPU之間的連接

在AMD的財(cái)務(wù)分析日上，AMD 透露將會(huì)升級(jí)其Infinity Fabric總線，不僅支持CPU-CPU以及GPU-GPU之間的連接，而且還將支持CPU-GPU之間的連接。

發(fā)表于 03-09 14:24 ?3411次閱讀

AMD Infinity Fabric總線升級(jí)，最多支持8個(gè)GPU芯片的連接

在AMD的財(cái)務(wù)分析日上，AMD 透露將會(huì)升級(jí)其Infinity Fabric總線，不僅支持CPU-CPU以及GPU-GPU之間的連接，而且還將支持CPU-GPU之間的連接。

發(fā)表于 03-09 15:02 ?4336次閱讀

典型的線性音頻放大器拓?fù)?/b>結(jié)構(gòu)

，這些放大器都需要具有極高的效率，以實(shí)現(xiàn)更長(zhǎng)時(shí)間的電池壽命。為了迎接這種挑戰(zhàn)，廣大設(shè)計(jì)人員將使用 G 類音頻放大器拓?fù)?/b>結(jié)構(gòu)。 ? 典型的線性音頻放大器拓?fù)?/b>

發(fā)表于 11-23 10:41 ?2644次閱讀

拓?fù)?/b>結(jié)構(gòu)是什么意思

拓?fù)?/b>結(jié)構(gòu)是什么意思拓?fù)?/b>結(jié)構(gòu)圖是指由網(wǎng)絡(luò)節(jié)點(diǎn)設(shè)備和通信介質(zhì)構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)圖。在選擇拓?fù)?/b>

發(fā)表于 03-07 13:41 ?5738次閱讀

拓?fù)?/b>視圖與實(shí)際拓?fù)?/b>結(jié)構(gòu)間的差異

簡(jiǎn)介拓?fù)?/b>視圖是硬件和網(wǎng)絡(luò)編輯器的三個(gè)工作區(qū)中的一個(gè)。在此處可執(zhí)行以下任務(wù)：顯示以太網(wǎng)拓?fù)?/b> 組態(tài)以太網(wǎng)拓?fù)?/b> 標(biāo)識(shí)出指定拓?fù)?/b>結(jié)構(gòu)與實(shí)際

發(fā)表于 09-10 09:56 ?2068次閱讀