亚洲色情人妻色午夜东京热,国模吧一区二区三区,欧美黄色影视亚洲做受高潮A

1.引言

人工智能的基礎(chǔ)設(shè)施在大語言模型訓練和推理過程中發(fā)揮了關(guān)鍵的作用。隨著大語言模型規(guī)模不斷增大，其對計算和通信的需求也在不斷增加。高性能網(wǎng)絡(luò)是人工智能基礎(chǔ)設(shè)施的重要組成部分，引起了業(yè)界的廣泛關(guān)注。

大語言模型（Large Language Model）的擴展定律[40]和涌現(xiàn)能力[9]驅(qū)動大語言模型參數(shù)數(shù)量的持續(xù)增大，目前大語言模型的參數(shù)規(guī)模已經(jīng)擴展到萬億級別，如此巨大的訓練任務(wù)遠超單個服務(wù)器的計算和存儲能力，需要通過構(gòu)建包含大量服務(wù)器的高性能計算集群來共同完成這些任務(wù)。這些服務(wù)器節(jié)點之間通過高性能網(wǎng)絡(luò)互聯(lián)，將工作負載分布在多個節(jié)點上加速訓練過程。因此，網(wǎng)絡(luò)性能直接決定了這些服務(wù)器節(jié)點間的通信效率[31,32]，進而影響整個計算集群的吞吐量和性能。并且隨著模型規(guī)模持續(xù)擴大，其帶來的分布式訓練規(guī)模和通信量將會井噴式增長。

綜合目前業(yè)界的應(yīng)用以及當前的技術(shù)現(xiàn)狀，大語言模型的訓練網(wǎng)絡(luò)主要面臨著以下重大挑戰(zhàn):

大規(guī)模并行擴展

大語言模型的訓練需要在數(shù)千甚至數(shù)萬個GPU上進行并行訓練，這給網(wǎng)絡(luò)組網(wǎng)帶來了巨大的挑戰(zhàn)，需要設(shè)計高效的網(wǎng)絡(luò)拓撲結(jié)構(gòu)和路由算法。

高通量和低延遲

大語言模型訓練過程中，不同的GPU之間需要交換大量的數(shù)據(jù)[23,24]。這可能會導致通信瓶頸[31,32]，進而影響訓練的效率。尤其是對于大語言模型訓練任務(wù)而言，整體訓練進度的完成往往取決于最后一條消息的到達時間，這使得網(wǎng)絡(luò)尾延遲指標的重要性大大提高。

高昂的網(wǎng)絡(luò)成本

大語言模型訓練網(wǎng)絡(luò)的建設(shè)和維護成本非常高昂，需要探索新的方法來降低成本，使LLM訓練網(wǎng)絡(luò)更加經(jīng)濟。傳統(tǒng)上分布式訓練系統(tǒng)網(wǎng)絡(luò)相關(guān)的成本[25]只占到整個基礎(chǔ)設(shè)施成本的10%左右，而大語言模型的網(wǎng)絡(luò)成本占比已經(jīng)提高到總成本的20%。

高可靠和高可用

大語言模型的訓練周期比較長，計算節(jié)點和網(wǎng)絡(luò)故障都會導致整個訓練過程的重啟，進而導致整個訓練周期的延長，因此大語言模型的訓練對網(wǎng)絡(luò)的可靠性和可用性有著更高的要求。據(jù)統(tǒng)計，在某個千億大模型的訓練總時長中[11]，真正用于模型訓練的時間只有50%，其他時間都用于處理故障以及進行斷點恢復(fù)。

本文進一步研究和探討網(wǎng)絡(luò)技術(shù)在大語言模型訓練中的應(yīng)用。首先闡述了同構(gòu)和異構(gòu)網(wǎng)絡(luò)的特點與優(yōu)勢，然后針對網(wǎng)絡(luò)的關(guān)鍵技術(shù)點，綜述互聯(lián)協(xié)議、網(wǎng)絡(luò)拓撲、擁塞控制等技術(shù)在大語言模型訓練中的研究進展和成果。隨之介紹了業(yè)界知名的大語言模型訓練網(wǎng)絡(luò)，并討論了大語言模型訓練網(wǎng)絡(luò)的未來發(fā)展趨勢。

2.訓練網(wǎng)絡(luò)分類

大語言模型訓練網(wǎng)絡(luò)有很多種分類方法，比如英偉達根據(jù)訓練網(wǎng)絡(luò)的規(guī)模、支持的業(yè)務(wù)類型和用戶數(shù)量等維度，將網(wǎng)絡(luò)分為AI factory和AI cloud兩種類型。

本文從網(wǎng)絡(luò)技術(shù)類型角度將訓練網(wǎng)絡(luò)分為同構(gòu)網(wǎng)絡(luò)和異構(gòu)網(wǎng)絡(luò)兩種：

一、同構(gòu)網(wǎng)絡(luò)以Google TPU為代表，通過使用ICI互聯(lián)協(xié)議，采用3D的環(huán)形網(wǎng)格網(wǎng)絡(luò)構(gòu)建TPU集群；

二、異構(gòu)網(wǎng)絡(luò)以英偉達 GPU訓練服務(wù)器為代表，網(wǎng)絡(luò)整體是由兩個子網(wǎng)絡(luò)組成，第一個子網(wǎng)絡(luò)（使用NVLINK或者其他自研的高速總線）用于服務(wù)器內(nèi)部的加速器之間的互聯(lián)，另一個子網(wǎng)絡(luò)（使用以太網(wǎng)、RoCE或者IB）用于服務(wù)器之間的高速互聯(lián)。

2.1.同構(gòu)網(wǎng)絡(luò)

業(yè)界知名的同構(gòu)網(wǎng)絡(luò)類型，其中之一就是Google TPU使用的自定義網(wǎng)絡(luò)，另外一個就是Intel的Gaudi2 全RoCE互聯(lián)方案。

圖1 Google TPUV4 組網(wǎng)拓撲

Google TPUV4[3]使用自定義網(wǎng)絡(luò)協(xié)議ICI進行高速互聯(lián)，ICI網(wǎng)絡(luò)是TPU集群專用網(wǎng)絡(luò)，在ICI網(wǎng)絡(luò)內(nèi)部由64顆TPU和16顆CPU組成一組（即稱為一個TPU Slice），通過直連的銅質(zhì)電纜連接在4*4*4的三維 Cube里面，而在這個ICI網(wǎng)絡(luò)之外就是OCS光學背板互連。Google SuperPod在AI工作負載方面具有性能和總擁有成本的優(yōu)勢，這得益于TPU從微架構(gòu)到系統(tǒng)架構(gòu)的整體設(shè)計，旨在協(xié)同特定模型和算法，以充分發(fā)揮出極致的并行性能和擴縮效益。

圖2 Intel Gaudi組網(wǎng)示意圖

Intel的Gaudi處理器[12,15]突破傳統(tǒng)，采用了獨特的設(shè)計策略。不同于使用高性能總線進行節(jié)點內(nèi)部互聯(lián)，Gaudi直接在處理器內(nèi)部集成了RoCE接口。例如，Gaudi2內(nèi)部整合了21個100G RoCE接口。在HLS-1（類似于英偉達的DGX服務(wù)器）中，支持8塊Gaudi加速卡，每塊卡利用7個100G RoCE接口實現(xiàn)了八塊卡之間的全連接（all to all）互聯(lián)。此外，另外的14個100G RoCE接口用于實現(xiàn)HLS-1服務(wù)器之間的互聯(lián)。

2.2.異構(gòu)網(wǎng)絡(luò)

以NVIDIA為代表的異構(gòu)網(wǎng)絡(luò)組網(wǎng)模式，保證了系統(tǒng)的整體性能并降低系統(tǒng)組網(wǎng)成本。H100的GPU服務(wù)器[30]由8個搭載ConnectX-7 NIC的GPU組成，這些GPU可以通過連接到NVSwitch的高速NVLink互相通信，各個GPU通過每個方向上3600Gbps的NVLink連接到一組NVSwitch。服務(wù)器內(nèi)的8個GPU可以通過其 400Gbps的ConnectX-7 NIC連接到外部交換機。

圖3 Nvidia DGX H100服務(wù)器

3.關(guān)鍵技術(shù)點

3.1.互聯(lián)協(xié)議

大語言模型網(wǎng)絡(luò)的互聯(lián)技術(shù)通常分為兩類，一類稱為總線互聯(lián)協(xié)議（典型總線包括NVLink、PCIE、CCIX、CXL等），用于加速芯片之間短距離、小規(guī)模和高通量互聯(lián)；另一類稱為網(wǎng)絡(luò)互聯(lián)協(xié)議（典型網(wǎng)絡(luò)互聯(lián)技術(shù)包括RoCE、iWARP、infiniband等），用于服務(wù)器集群之間進行長距離、大規(guī)模的數(shù)據(jù)通信。

隨著總線和網(wǎng)絡(luò)技術(shù)的發(fā)展，這兩類技術(shù)已經(jīng)出現(xiàn)了逐漸融合的趨勢，比如英偉達NVLink4.0已經(jīng)可以支持256個GPU的互聯(lián)，CXL在其規(guī)范中也提到將來支持機架間的互聯(lián)。

表1：互聯(lián)協(xié)議對比

3.1.1.總線互聯(lián)協(xié)議

常見的總線互聯(lián)協(xié)議包括英偉達的NVLink[14]、AMD的infinity fabric[63]、PCI-SIG組織發(fā)布的PCIE[64]和CXL聯(lián)盟推出的開放式互聯(lián)新標準CXL[62]。英偉達的NVLink是目前大模型訓練網(wǎng)絡(luò)中最具代表性的總線互聯(lián)協(xié)議，本章將以其為主線進行介紹。

NVLink于2014年3月的NVIDIA GTC 2014上發(fā)布，2016發(fā)布的P100是搭載NVLink的第一款產(chǎn)品，單個GPU具有160GB/s的帶寬，相當于PCIe Gen3 * 16帶寬的5倍。GTC 2017上發(fā)布的V100搭載的NVLink 2.0將GPU帶寬提升到了300GB/s，大約是PCIe的10倍，到了最新一代H100支持NVLink4.0，雙向帶寬更是提升到了900GB/s。

圖4 Nvidia NVLink路標

通過分析現(xiàn)有與NVLink協(xié)議相關(guān)的技術(shù)論文[6]，可以得到以下結(jié)論：

1、在底層鏈路延遲方面（NVLink2.0 VS PCIE 3.0），NVLink只有PCIE延遲的55%；

2 、系統(tǒng)的延遲不僅取決于底層鏈路延遲，還與軟硬件的整體配合關(guān)系巨大。在reduce場景下，NVLink延遲意外高于PCIE協(xié)議（18us VS 14us），但是在Broadcast、reduce_scatter、all_gather場景下延遲更低，且不同通訊模式下NVLink延遲表現(xiàn)非常穩(wěn)定。

用于連接 GPU 服務(wù)器中的 8 個 GPU 的 NVLink 交換機也可以用于構(gòu)建連接 GPU 服務(wù)器之間的交換網(wǎng)絡(luò)。Nvidia 在 2022 年的 Hot Chips 大會上展示了使用 NVswitch 架構(gòu)連接 32 個節(jié)點（或 256 個 GPU）的拓撲結(jié)構(gòu)。由于 NVLink 是專門設(shè)計為連接 GPU 的高速點對點鏈路，所以它具有比傳統(tǒng)網(wǎng)絡(luò)更高的性能和更低的開銷。

表2：總線協(xié)議對比

3.1.2.網(wǎng)絡(luò)互聯(lián)協(xié)議

表3：InfiniBand與RoCEv2技術(shù)特性對比

自1999年問世以來，InfiniBand（簡稱IB）[29,34,35]一直被視為高性能互聯(lián)的替代技術(shù)，在服務(wù)器、存儲和網(wǎng)絡(luò)基礎(chǔ)設(shè)施中得到廣泛應(yīng)用。由于其高速率、低延遲和零包丟失的特點，IB長期在高性能計算、AI集群和數(shù)據(jù)中心領(lǐng)域處于應(yīng)用的前沿地位。

IB協(xié)議秉持簡單高效設(shè)計理念，同時支持多種通信模式，通過基于信用的流量控制實現(xiàn)設(shè)備間的零丟包傳輸目標。IB交換機全面支持遠程直接內(nèi)存訪問（RDMA），從而實現(xiàn)GPU間的直接內(nèi)存互聯(lián)。然而，在架構(gòu)和擴展能力方面，IB存在一定局限性。

相比之下，以太網(wǎng)應(yīng)用范圍更廣，通過優(yōu)先級流量控制（PFC）等機制實現(xiàn)零丟包傳輸，并通過RoCEv2[26,27,28,33]實現(xiàn)了RDMA封裝傳輸。隨著技術(shù)的進步，以太網(wǎng)在大規(guī)模AI集群中替代IB的程度不斷增加。代表性的擁塞控制方案如DCQCN、HPCC等已得到廣泛應(yīng)用，部分云服務(wù)商已經(jīng)使用了規(guī)模超過32KGPU的以太網(wǎng)架構(gòu)。

2023年7月，由英特爾、AMD、惠普企業(yè)、Arista、Broadcom、思科、Meta和微軟等長期深度參與HPC和網(wǎng)絡(luò)領(lǐng)域的公司牽頭，共同宣布成立超以太網(wǎng)聯(lián)盟（Ultra Ethernet Consortium）。該聯(lián)盟的目標是創(chuàng)建一個“基于以太網(wǎng)的完整通信堆棧架構(gòu)”，使其像以太網(wǎng)一樣具有普及性和成本效益，同時提供超級計算互連所需的性能。聯(lián)盟明確了以下理想特性：靈活的傳輸順序、現(xiàn)代的擁塞控制機制、多路徑和分組噴射，以及更大的可擴展性和端到端遙測。

中國移動聯(lián)合合作伙伴共同推出了全調(diào)度以太網(wǎng)（GSE）[42]。全調(diào)度以太網(wǎng)是具備無阻塞、高吞吐、低時延的新型以太網(wǎng)架構(gòu)。全調(diào)度以太網(wǎng)架構(gòu)自上而下分為三層，分別為控制層、網(wǎng)絡(luò)層和計算層，引入一種全新的動態(tài)全局隊列調(diào)度機制。動態(tài)全局調(diào)度隊列（DGSQ）按需、動態(tài)基于數(shù)據(jù)流目標設(shè)備端口創(chuàng)建，為了節(jié)省隊列資源數(shù)量，甚至可以基于目標或途經(jīng)設(shè)備的擁塞反饋按需創(chuàng)建?；?DGSQ 的調(diào)度可實現(xiàn)在整個網(wǎng)絡(luò)層面的高吞吐、低時延、均衡調(diào)度。

總體來看，隨著RoCEv2等技術(shù)的成熟[27]、全調(diào)度以太網(wǎng)[42]以及超以太網(wǎng)聯(lián)盟[36]的成立，以太網(wǎng)在AI集群互聯(lián)場景中的地位不斷提升，多種網(wǎng)絡(luò)互連技術(shù)在持續(xù)進化中共同推動著計算互聯(lián)的發(fā)展。

3.2.網(wǎng)絡(luò)拓撲

大語言模型訓練網(wǎng)絡(luò)對網(wǎng)絡(luò)拓撲的規(guī)模、擴展性、網(wǎng)絡(luò)直徑、可靠性、功耗和成本提出了更高的要求，比如訓練網(wǎng)絡(luò)的擴大需要設(shè)計更小的網(wǎng)絡(luò)直徑來降低網(wǎng)絡(luò)延遲，具體拓撲選擇上也需要考慮組網(wǎng)需要的路由器、線纜帶來的互聯(lián)成本，網(wǎng)絡(luò)拓撲需要具有足夠的擴展性以支持后續(xù)規(guī)模的動態(tài)擴容等等。

在高性能計算的發(fā)展中，Torus無疑占據(jù)了比較重要的位置，比如cray的T3D、T3E均采用了3D Torus的結(jié)構(gòu)。隨著硬件條件的成熟，高維的Torus結(jié)構(gòu)也已經(jīng)被很多主流的高性能計算系統(tǒng)采用，最典型的就是fujisu公司推出的K computer采用的6D Torus結(jié)構(gòu)。

胖樹結(jié)構(gòu)[20]是目前在大語言模型訓練網(wǎng)絡(luò)中常見的拓撲結(jié)構(gòu)，胖樹是一個靈活性和擴展性都比較好的拓撲結(jié)構(gòu)，隨著網(wǎng)絡(luò)規(guī)模的擴大，其二分帶寬也會隨著等規(guī)模增加。

圖5 胖樹拓撲圖

相比于Torus結(jié)構(gòu)，胖樹網(wǎng)絡(luò)路由算法更容易實現(xiàn)，有更低的網(wǎng)絡(luò)直徑，網(wǎng)絡(luò)性能相對出色。但是胖樹網(wǎng)絡(luò)在擴展至更大規(guī)模網(wǎng)絡(luò)時需要增加網(wǎng)絡(luò)層數(shù)，從而導致鏈路數(shù)隨之指數(shù)增長，會大大增加網(wǎng)絡(luò)成本。

Dragonfly是由John Kim等人在2008年的論文[5]中提出，它的特點是網(wǎng)絡(luò)直徑小、成本較低，對于高性能計算有著非常大的優(yōu)勢。現(xiàn)在已經(jīng)被運用在使用Cray XC系列網(wǎng)絡(luò)的各種超算中。

圖6 DragonFly拓撲圖

Dragonfly網(wǎng)絡(luò)雖然在成本、降低交換芯片連接端口數(shù)量等方面有一定優(yōu)勢，但是面對整體網(wǎng)絡(luò)計算節(jié)點的增多，Dragonfly、Dragonfly+等網(wǎng)絡(luò)結(jié)構(gòu)依然要面臨網(wǎng)絡(luò)連線較為復(fù)雜，網(wǎng)絡(luò)總體設(shè)計成本仍然偏高以及整體網(wǎng)絡(luò)所需的全局光纖數(shù)偏高等挑戰(zhàn)。

除了上述拓撲結(jié)構(gòu)，騰訊的星脈網(wǎng)絡(luò)[58]、MIT和META的rail-only[8]等還提出了定制化拓撲結(jié)構(gòu)，這些拓撲結(jié)構(gòu)專門針對大語言模型的通信需求進行設(shè)計，旨在提升性能的同時顯著降低成本。

3.3.擁塞控制

大語言模型訓練作為典型的大規(guī)模數(shù)據(jù)密集型應(yīng)用場景，為了應(yīng)對不斷增長的高吞吐量和超低延遲需求，優(yōu)秀的擁塞控制算法成為必要的配置。

現(xiàn)有的擁塞控制算法可以根據(jù)擁塞控制驅(qū)動點的位置，即發(fā)送端、交換機或接收端進行分類。發(fā)送端驅(qū)動的方法中發(fā)送端利用在ACK數(shù)據(jù)包中攜帶的信息判定擁塞并觸發(fā)控制動作，如DCTCP[47]、DCQCN[49]、TIMELY[48]和HPCC[50]。DCTCP[47]是數(shù)據(jù)中心網(wǎng)絡(luò)的第一個擁塞控制算法，它利用ECN標記在往返時間內(nèi)調(diào)整速率。DCQCN[49]與DCTCP類似，但更準確地結(jié)合了ECN信息。TIMELY[48]則基于RTT進行控制。HPCC[50]利用每一跳帶內(nèi)網(wǎng)絡(luò)遙測（INT）來調(diào)整速率和發(fā)送窗口。此類方法較為成熟部署也最為廣泛，但它們往往受到長反饋延時的影響，難以有效應(yīng)對瞬時突發(fā)流量。此外，在這方向上近些年一些基于強化學習的擁塞控制算法也不斷出現(xiàn)，如RL-CC[51]、DeepCC[52]和Pareto[53]等。

交換機側(cè)控制的方法是在交換機上監(jiān)控流量生成顯式反饋控制報文來減少控制環(huán)路的延遲。RoCC[56]基于交換機上的隊列長度，通過PI（Proportional Integral）算法實現(xiàn)控制。PACC[54]則以動態(tài)間隔監(jiān)測隊列長度，區(qū)分突發(fā)流量和擁塞，并直接從交換機生成通知。此類方法較為精確但是又往往依賴于特殊的交換機，限制了部署的范圍。

接收端驅(qū)動的方法在接收端檢測擁塞狀況并產(chǎn)生驅(qū)動報文以調(diào)節(jié)流量。例如RCC [55]結(jié)合了顯式窗口分配和迭代窗口調(diào)整并在接收端實現(xiàn)控制。

3.4.運維技術(shù)

大語言模型訓練網(wǎng)絡(luò)不同于傳統(tǒng)的數(shù)據(jù)中心網(wǎng)絡(luò)，具有訓練周期長，中斷次數(shù)多特點，其特殊的流量特點要求網(wǎng)絡(luò)運維有更高精度的流量采集能力、更精細化的流量統(tǒng)計能力以及更全面的對流控相關(guān)指標的采集和統(tǒng)計能力。只有具備上述能力才能更好使用整個訓練網(wǎng)絡(luò)，快速的發(fā)現(xiàn)和定位問題。

《智算中心網(wǎng)絡(luò)架構(gòu)白皮書》[10]中認為運維技術(shù)的關(guān)鍵技術(shù)包括：1）可視化網(wǎng)管系統(tǒng)，實現(xiàn)對整個集群網(wǎng)絡(luò)和節(jié)點內(nèi)部網(wǎng)絡(luò)的可視化；2）高精度流量采集，利用交換設(shè)備上telemetry功能，具備秒級流量統(tǒng)計、按需訂閱和高性能的特點；3）數(shù)據(jù)可視化展示，通過telemetry采集各項指標，用戶選擇性的進行前端展示；4）智能化運維，實現(xiàn)自動故障分析、定位和修復(fù)。

《星河AI網(wǎng)絡(luò)白皮書》[11]中首次提出了三層兩維可視化運維方案，三層主要是指覆蓋基礎(chǔ)網(wǎng)絡(luò)運維、RoCE無損網(wǎng)絡(luò)通用場景運維和AI網(wǎng)絡(luò)特有場景運維。兩維主要指從監(jiān)控和排障兩個維度，針對三層場景，提供運維和能力手段。

3.5.在網(wǎng)計算

在網(wǎng)計算功能使得網(wǎng)絡(luò)內(nèi)部的硬件計算引擎能夠在網(wǎng)絡(luò)通信的過程中卸載復(fù)雜操作。在網(wǎng)計算通過網(wǎng)絡(luò)的交換和端側(cè)設(shè)備共同配合的形式得以實現(xiàn)。作為一種內(nèi)部網(wǎng)絡(luò)基于樹狀聚合的機制，在網(wǎng)計算可以支持多個同時的集合操作。交換機被標識為聚合節(jié)點，將執(zhí)行這樣的數(shù)據(jù)reduce操作。以典型allreduce算子為例，傳統(tǒng)的通信交互復(fù)雜度為O(logN)（N代表網(wǎng)絡(luò)節(jié)點規(guī)模），啟動在網(wǎng)計算功能后其交互復(fù)雜度變?yōu)镺(C)（C代表網(wǎng)絡(luò)層級），與網(wǎng)絡(luò)節(jié)點規(guī)模無關(guān)，極大減少了計算節(jié)點之間的通信交互過程，降低了網(wǎng)絡(luò)時延，提升了計算效率。

在AI訓練網(wǎng)絡(luò)中最知名的在網(wǎng)計算技術(shù)就是英偉達的SHARP（Scalable Hierarchical Aggregation and Reduction Protocol）[17, 18]，目前在其infiniband交換機和nvswitch都已經(jīng)支持。Intel在2018年提出了switchML[19]，該系統(tǒng)在其Tofino專用芯片（ASIC）的可編程交換機上實現(xiàn)了AllReduce操作，充分利用了交換機的編程能力。

華為公司NetReduce[22]基于RoCEV2，使用 FPGA 來實現(xiàn)了交換機，實現(xiàn)了數(shù)據(jù)中心中各粒度的 AllReduce 聚合。此外，論文Flare[21]實現(xiàn)了更靈活的架構(gòu)，基于開源指令集處理器 RISC-V，使用 sPIN 編程模型設(shè)計了一個交換機支持allreduce計算。

3.6.鏈路負載均衡

在大語言模型的推理和訓練應(yīng)用中，GPU 或其他類型的計算單元的通訊模式通常包括較少的數(shù)據(jù)流和巨大的每數(shù)據(jù)流吞吐量，這就極易導致負載不均衡情況的出現(xiàn)。這種不均衡極可能惡化網(wǎng)絡(luò)通訊狀況同時帶來帶寬資源的浪費。為了解決這個問題，不同的負載均衡（Load balance）方法被提出，在ECMP[37]中數(shù)據(jù)包使用靜態(tài)哈希分布到等效的多路徑上，該方法以流為傳輸單元。對于CONGA[38] 和LetFlow [41] , 流片（flowlet）作為傳輸單元，CONGA根據(jù)端到端路徑條件的全局信息的實時狀態(tài)選擇流量最佳的下一跳。Letflow根據(jù)預(yù)定時間間隔對數(shù)據(jù)包集群進行分類，并隨機選擇每個集群的轉(zhuǎn)發(fā)端口。DRILL [39] 通過采用隨機策略與工作負載結(jié)合的機制選擇轉(zhuǎn)發(fā)端口，Hermes[40] 將流量傳輸劃分，根據(jù)路徑和流的狀態(tài)決定是在流水平重新路由短流還是在數(shù)據(jù)包水平重新路由長流。

3.7.高性能通信庫

在大語言模型訓練和推理網(wǎng)絡(luò)中，高性能通信庫扮演著關(guān)鍵的角色，它們負責優(yōu)化數(shù)據(jù)傳輸和通信，加速AI工作負載，提高整體性能。常見的高性能通信庫包括：

NCCL（NVIDIA Collective Communications Library）[43]，它由NVIDIA開發(fā)，專為GPU集群通信而設(shè)計。針對NVIDIA GPU進行了優(yōu)化，支持高效的點對點和集體通信操作，適用于深度學習框架如TensorFlow和PyTorch。

OpenMPI[44]：一個開源的消息傳遞接口（MPI）實現(xiàn)，用于并行計算。適用于多種硬件和網(wǎng)絡(luò)拓撲，支持各種通信模式，廣泛應(yīng)用于科學計算和大規(guī)模數(shù)據(jù)分析。

Horovod[45]：Uber工程團隊開發(fā)的集合通信庫支持多種深度學習框架，如TensorFlow、PyTorch和MXNet。同時支持通信優(yōu)化，以加速分布式訓練。

Gloo[46]：Facebook開源的通信庫為分布式深度學習和模型并行計算而設(shè)計, 具有高性能的點對點和集體通信實現(xiàn)，適用于各種硬件和網(wǎng)絡(luò)環(huán)境。

ACCL[57]：ACCL（Alibaba Collective Communication Library）是一款高性能通信庫，提供了AllReduce、AllToAllV、Broadcast等常用集合操作接口以及點到點Send/Recv接口，為多機多卡訓練提供高效的通信支持。

此外還有其他廠家根據(jù)自己的硬件平臺定制的集合通信庫，比如TCCL（Tencent Collective Communication Library）、HCCL（Huawei Collective Communication Library）等等，這些高性能通信庫有助于克服在大規(guī)模AI工作負載中可能遇到的通信瓶頸，提高模型訓練和推理的效率。選擇適當?shù)耐ㄐ艓焱ǔＨQ于硬件架構(gòu)、網(wǎng)絡(luò)拓撲和具體的應(yīng)用場景。

4.業(yè)界知名的大模型訓練網(wǎng)絡(luò)

很多的云廠商、互聯(lián)網(wǎng)公司紛紛結(jié)合自己的技術(shù)優(yōu)勢，通過自研和外部合作的方式搭建起自己的大語言模型訓練網(wǎng)絡(luò)的基礎(chǔ)設(shè)施。

騰訊采用高性能RDMA網(wǎng)絡(luò)[58]，采用自研網(wǎng)絡(luò)協(xié)議TiTa、定制化集合通信庫TCCL、多軌道網(wǎng)絡(luò)拓撲再加上自研全棧網(wǎng)絡(luò)運營系統(tǒng)搭建星脈網(wǎng)絡(luò)集群，支持10萬卡的超大規(guī)模，具備3.2T通信帶寬，提升40%的GPU利用率，節(jié)省30-60%的模型訓練成本，為AI及大語言模型訓練帶來10倍的通信性能提升。

阿里推出高性能AI訓練計算平臺-靈駿[59]，使用基于內(nèi)存語義的低延遲、高帶寬可線性擴展的磐久高性能網(wǎng)絡(luò)predFabric，采用自研Solar-RDMA高速網(wǎng)絡(luò)協(xié)議，并結(jié)合網(wǎng)絡(luò)協(xié)議硬件化，芯片化延時降低至2微秒，實現(xiàn)了5倍的通信性能提升，千卡并行計算效率高達90%。

百度聯(lián)合英偉達共同完成容納萬卡規(guī)模以上的IB網(wǎng)絡(luò)[10]，提供單集群EFLOPS級別的算力。整個網(wǎng)絡(luò)采用8通道架構(gòu)，通道內(nèi)spine和leaf交換機做fullmesh全互聯(lián)。為了減少跨交換機通信，采用網(wǎng)絡(luò)架構(gòu)感知方法，訓練任務(wù)調(diào)度時將同一個任務(wù)調(diào)度到同一個匯聚組內(nèi)。對于跨匯聚組的通信，通過匯聚組信息對全局GPU做有序化處理，減少跨交換機流量。

英偉達推出了面向超大規(guī)模生成式 AI 的加速以太網(wǎng)平臺——Spectrum-X[60]，其擁有無損網(wǎng)絡(luò)、動態(tài)路由、流量擁塞控制、多業(yè)務(wù)性能隔離等主要特性，能夠滿足云上部署AI或生成式AI工作負載對網(wǎng)絡(luò)性能的要求，有助于節(jié)約訓練成本、縮短訓練時間，加速大模型走向面市。

MIT和Meta團隊發(fā)布了名為“Rail-Only”的全新大語言模型架構(gòu)設(shè)計[8]，對專門用于訓練大型語言模型的 GPU 集群的傳統(tǒng)any-to-any網(wǎng)絡(luò)架構(gòu)提出了挑戰(zhàn)。Rail-Only架構(gòu)通過將GPU分組，組成一個高帶寬互聯(lián)域（HB域），然后再將這些HB域內(nèi)的特定的GPU跨接到特定的Rail交換機，雖然增加了跨域通信的路由調(diào)度復(fù)雜度，但是通過合理的HB域和Rail交換機設(shè)計，整體架構(gòu)可以大量減少交換機的使用，最多可以降低75%的網(wǎng)絡(luò)通信。

微軟與OpenAI獨家合作打造了一臺性能位居全球前五，擁有超過28.5萬個CPU核心、1萬個GPU，每GPU擁有400Gbps網(wǎng)絡(luò)帶寬的超級計算機——Azure AI超算平臺[61]，主要用于大規(guī)模分布式AI模型訓練。

2024年2月字節(jié)跳動聯(lián)合北京大學的研究團隊發(fā)表論文[65],介紹了他們用于訓練大語言模型的生產(chǎn)系統(tǒng)MegaScale。MegaScale搭建超過10000塊GPU的單一集群，在12288個GPU上訓練175B LLM模型時，實現(xiàn)了55.2%模型FLOP利用率。該系統(tǒng)還包含了一套診斷工具用于監(jiān)控系統(tǒng)組件和事件，找出根本原因，并實現(xiàn)容錯功能。

5.展望

隨著大語言模型規(guī)模的不斷增大，對網(wǎng)絡(luò)的帶寬、延遲、可靠性和健壯性的要求也越來越高。未來的大語言模型訓練網(wǎng)絡(luò)組網(wǎng)將向以下幾個方向發(fā)展：更高的帶寬、更低的延遲、更加可靠的組網(wǎng)以及自動化智能運維。結(jié)合上述發(fā)展方向，大語言模型訓練網(wǎng)絡(luò)組網(wǎng)存在以下幾個研究領(lǐng)域：

新型網(wǎng)絡(luò)拓撲

針對大語言模型訓練網(wǎng)絡(luò)研究新的拓撲結(jié)構(gòu)，以提高網(wǎng)絡(luò)的帶寬和降低網(wǎng)絡(luò)的延遲。例如，可以研究基于Clos拓撲結(jié)構(gòu)和Dragonfly拓撲結(jié)構(gòu)的混合拓撲結(jié)構(gòu)，以兼顧網(wǎng)絡(luò)的帶寬和延遲。

優(yōu)化流量工程算法

為優(yōu)化網(wǎng)絡(luò)中的數(shù)據(jù)流向，減少網(wǎng)絡(luò)擁塞，研究新的流量工程算法。例如，可以研究基于機器學習的流量工程算法，以動態(tài)調(diào)整網(wǎng)絡(luò)中的數(shù)據(jù)流向，避免網(wǎng)絡(luò)擁塞。

智能運維管理技術(shù)

在網(wǎng)絡(luò)管理技術(shù)上進一步深入研究，以盡可能簡化網(wǎng)絡(luò)的管理和維護。例如，可以研究基于人工智能的網(wǎng)絡(luò)管理技術(shù)，以自動發(fā)現(xiàn)和修復(fù)網(wǎng)絡(luò)故障，并根據(jù)網(wǎng)絡(luò)的實時狀態(tài)進行優(yōu)化。

領(lǐng)域定制高速互聯(lián)技術(shù)

觀察AI大模型網(wǎng)絡(luò)流量特點，針對關(guān)鍵技術(shù)如協(xié)議定義、擁塞和流量控制等進行針對性優(yōu)化，以期更好的適配大模型網(wǎng)絡(luò)的訓練特點。同時在架構(gòu)設(shè)計上需要有足夠的靈活性允許引入新的功能，使其具備持續(xù)演進的能力。

這些研究領(lǐng)域?qū)τ诖笳Z言模型訓練網(wǎng)絡(luò)組網(wǎng)的未來發(fā)展至關(guān)重要。通過對這些領(lǐng)域的深入研究，我們可以研發(fā)出更高效、更可靠、更安全以及更智能的AI大模型訓練網(wǎng)絡(luò)，以滿足大語言模型訓練的需求。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
20255

瀏覽量
252273
人工智能

人工智能

+關(guān)注

關(guān)注
1817

文章
50098

瀏覽量
265363
網(wǎng)絡(luò)拓撲

網(wǎng)絡(luò)拓撲

+關(guān)注

關(guān)注
0

文章
106

瀏覽量
12602
GPU芯片

GPU芯片

+關(guān)注

關(guān)注
1

文章
307

瀏覽量
6517
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3650

瀏覽量
5183

原文標題：史上最全大語言模型訓練中的網(wǎng)絡(luò)技術(shù)盤點

文章出處：【微信號：SDNLAB，微信公眾號：SDNLAB】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

盤點一下史上最全大語言模型訓練中的網(wǎng)絡(luò)技術(shù)

評論