久久婷婷狠狠在线看片a,美国黄色网欧美色色,久久日韩永久免费视频

根據(jù) IDC 的數(shù)據(jù)，2022 年，AI 網(wǎng)絡(luò)市場已達到 20億美元，其中 InfiniBand 貢獻了 75% 的收入。2023 年AI 基礎(chǔ)設(shè)施建設(shè)投資將達到 1540億美元，到 2026 年將增長到 3000億美元。展望 2027 年，AI 網(wǎng)絡(luò)的收入將飆升至超過 100億美元，其中以太網(wǎng)將超過 60億美元。以太網(wǎng)和 InfiniBand 都將在此期間強勁增長。與此同時，AI 工作負載的帶寬每年增長將超過 100%，遠高于數(shù)據(jù)中心每年 30-40% 的帶寬增長。此外，AI 將成為未來十年以太網(wǎng)交換機市場最重要的增長動力。

隨著AI 的持續(xù)火熱，其工作負載也呈指數(shù)級增長，網(wǎng)絡(luò)基礎(chǔ)設(shè)施正面臨極限。AI 基礎(chǔ)設(shè)施建設(shè)需要支持運行在單個計算和存儲節(jié)點上的大型復(fù)雜工作負載，這些節(jié)點作為邏輯集群一起工作。AI 網(wǎng)絡(luò)通過大容量互聯(lián)結(jié)構(gòu)連接這些大型工作負載。

AI 工作負載

AI 工作負載與傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)有著根本的不同，雖然超大規(guī)模數(shù)據(jù)中心和 AI /HPC集群之間有很多相似之處，但超大規(guī)模數(shù)據(jù)中心使用的解決方案不足以解決AI /HPC工作負載帶來的額外復(fù)雜性。AI網(wǎng)絡(luò)有著以下特征：

并行計算：AI 工作負載是運行相同應(yīng)用程序、相同計算任務(wù)的多臺機器之間統(tǒng)一的基礎(chǔ)設(shè)施；

規(guī)模：此類任務(wù)的規(guī)模可以達到數(shù)千個計算引擎（例如GPU、CPU、FPGA 等）；

作業(yè)類型：不同的任務(wù)在大小、運行時間、數(shù)據(jù)集大小和數(shù)量、生成答案的類型、用于編碼應(yīng)用程序的不同語言和運行它的硬件類型等方面有所不同，都會導(dǎo)致為運行AI 工作負載而構(gòu)建的網(wǎng)絡(luò)流量模式不斷變化；

延遲：延遲是影響作業(yè)完成時間（JCT）的重要因素之一。然而，由于此類并行工作負載在多臺機器上運行，因此延遲取決于響應(yīng)最慢的機器；

無損：遲到的響應(yīng)會延遲整個應(yīng)用程序。在傳統(tǒng)數(shù)據(jù)中心中，消息丟失將導(dǎo)致重新傳輸，而在AI 工作負載中，消息丟失意味著整個計算要么錯誤，要么卡住。正是由于這個原因，AI 網(wǎng)絡(luò)需要無損行為；

帶寬：AI 應(yīng)用的數(shù)據(jù)集很大。高帶寬流量需要在服務(wù)器之間運行，以便應(yīng)用程序能夠獲取數(shù)據(jù)。在現(xiàn)代部署中，AI /HPC計算功能的每個計算引擎的接口速度都達到 400Gbps。

AI 集群網(wǎng)絡(luò)

AI 集群通常有兩個不同的網(wǎng)絡(luò)。第一種網(wǎng)絡(luò)，也是比較傳統(tǒng)的，是所有服務(wù)器的外部或面向外部的“前端”網(wǎng)絡(luò)，當(dāng)它們面向公共互聯(lián)網(wǎng)時，需要基于以太網(wǎng)和IP協(xié)議。AI 的主要區(qū)別在于需要將大量數(shù)據(jù)輸入集群，因此管道比傳統(tǒng)的網(wǎng)絡(luò)服務(wù)器大得多。未來的 AI 設(shè)計將驅(qū)動每臺服務(wù)器多個 112G SERDES 通道，表現(xiàn)為 100 G 或 400 G 端口。

第二種是“后端”網(wǎng)絡(luò)，這是一個將AI 集群資源連接在一起的獨特網(wǎng)絡(luò)。對于AI 集群來說，跨計算資源連接到其共享存儲和內(nèi)存，并快速且沒有延遲偏差地執(zhí)行這些任務(wù)，對于最大化集群性能至關(guān)重要。未來這種新網(wǎng)絡(luò)的AI 設(shè)計將是每個計算服務(wù)器有多個 400 G、800 G 或更高端口。

AI 工作負載嚴重依賴于后端網(wǎng)絡(luò)。由于一個工作負載在多臺服務(wù)器上運行，因此需要高帶寬、無抖動和無數(shù)據(jù)包丟失，以確保最高的 GPI 利用率。網(wǎng)絡(luò)性能的任何下降都會影響JCT。這就需要一個可預(yù)測的、無損的后端網(wǎng)絡(luò)解決方案，這對任何網(wǎng)絡(luò)技術(shù)來說都是一個重大挑戰(zhàn)。

隨著AI 工作負載的快速增長，AI 集群結(jié)構(gòu)中使用的網(wǎng)絡(luò)解決方案需要不斷發(fā)展，以最大限度地利用昂貴的AI 資源。

AI網(wǎng)絡(luò)行業(yè)解決方案

如何設(shè)計高效的AI 集群組網(wǎng)方案，滿足低時延、高吞吐的機間通信，從而降低多機多卡間數(shù)據(jù)同步的通信耗時，提升 GPU 有效計算時間占比（GPU 計算時間/整體訓(xùn)練時間），對于 AI 網(wǎng)絡(luò)互聯(lián)至關(guān)重要。下文展示了部分AI高性能網(wǎng)絡(luò)行業(yè)解決方案。

騰訊星脈網(wǎng)絡(luò)

6月，騰訊云首次完整披露自研星脈高性能計算網(wǎng)絡(luò)。據(jù)稱，星脈網(wǎng)絡(luò)具備3.2T通信帶寬，能提升40%的GPU利用率，節(jié)省30%~60%的模型訓(xùn)練成本，為AI大模型帶來10倍通信性能提升?；隍v訊云新一代算力集群HCC，可支持10萬卡的超大計算規(guī)模。

在硬件方面，星脈網(wǎng)絡(luò)基于騰訊的網(wǎng)絡(luò)研發(fā)平臺，采用全自研設(shè)備構(gòu)建互聯(lián)底座，實現(xiàn)自動化部署和配置。在軟件方面，騰訊云自研的TiTa網(wǎng)絡(luò)協(xié)議，采用先進的擁塞控制和管理技術(shù)，能夠?qū)崟r監(jiān)測并調(diào)整網(wǎng)絡(luò)擁塞，滿足大量服務(wù)器節(jié)點之間的通信需求，確保數(shù)據(jù)交換流暢、延時低，使集群通信效率達90%以上。

華為星河AI網(wǎng)絡(luò)

華為新一代星河AI網(wǎng)絡(luò)解決方案，旨在提供一種高效、可靠、安全的數(shù)據(jù)中心網(wǎng)絡(luò)解決方案，以支持大規(guī)模數(shù)據(jù)中心的數(shù)字化轉(zhuǎn)型。華為星河AI網(wǎng)絡(luò)解決方案整體技術(shù)棧，圍繞超高吞吐、長穩(wěn)可靠和彈性高并發(fā)等核心目標來構(gòu)建關(guān)鍵技術(shù)：

超高吞吐：基于華為獨創(chuàng)的全局負載均衡NSLB算法、自動化開局和全?？梢曔\維技術(shù)實現(xiàn)算網(wǎng)實時協(xié)同調(diào)度，將網(wǎng)絡(luò)有效吞吐從業(yè)界的50%提升到98%，大模型訓(xùn)練效率提升20%。

長穩(wěn)可靠：利用全?？梢曔\維黑科技，實現(xiàn)大模型訓(xùn)練網(wǎng)絡(luò)路徑、流負載實時可視；結(jié)合Packet Event數(shù)據(jù)面異常感知技術(shù)和DPFR故障無感自愈技術(shù)，實現(xiàn)亞毫秒級故障快速收斂。

彈性高并發(fā)：基于華為獨創(chuàng)的多路徑智能調(diào)度、流感知均衡調(diào)優(yōu)和自適應(yīng)抗丟包技術(shù)，實現(xiàn) “T級數(shù)據(jù)小時達”，轉(zhuǎn)發(fā)運力提升8倍。

阿里可預(yù)期高性能網(wǎng)絡(luò)

阿里云基礎(chǔ)設(shè)施事業(yè)部推出的可預(yù)期網(wǎng)絡(luò)（Predictable Network）可滿足計算任務(wù)中的過程數(shù)據(jù)高效交換需求，是大規(guī)模RDMA網(wǎng)絡(luò)部署實踐中不斷總結(jié)并創(chuàng)新而來的網(wǎng)絡(luò)技術(shù)體系。相比于傳統(tǒng)網(wǎng)絡(luò)的“盡力而為”，可預(yù)期網(wǎng)絡(luò)的概念代表了應(yīng)用場景對網(wǎng)絡(luò)服務(wù)質(zhì)量更高的要求，讓吞吐率、時延等關(guān)鍵性能指標“可預(yù)期”，具備質(zhì)量保證（QoS）。

阿里云高性能可預(yù)期數(shù)據(jù)中心網(wǎng)絡(luò)的核心技術(shù)包括：

自研High Performance Network（HPN）高性能網(wǎng)絡(luò)架構(gòu)；

基于自研交換機和智能網(wǎng)卡的端網(wǎng)融合核心技術(shù)體系；

統(tǒng)一的高性能網(wǎng)絡(luò)服務(wù)平臺，Network Unified Service Architecture (NUSA)。

阿里云可預(yù)期網(wǎng)絡(luò)技術(shù)體系在架構(gòu)設(shè)計、傳輸協(xié)議、通信庫、網(wǎng)絡(luò)資源調(diào)度、網(wǎng)絡(luò)容器、服務(wù)化等維度展開，正在通過智能計算靈駿，為人工智能、大數(shù)據(jù)分析、高性能計算等高密度計算場景提供服務(wù)。

百度AIPod高性能網(wǎng)絡(luò)

百度認為 AI 高性能網(wǎng)絡(luò)有三大目標：超大規(guī)模、超高帶寬以及超長穩(wěn)定，基于這樣的目標，百度有針對性地設(shè)計了 AI 大底座里面的 AI 高性能網(wǎng)絡(luò)—— AIPod。

百度AI 高性能網(wǎng)絡(luò) AIPod有約 400 臺交換機、3000 張網(wǎng)卡、10000 根線纜和 20000 個光模塊。其中僅線纜的總長度就相當(dāng)于北京到青島的距離。AIPod 網(wǎng)絡(luò)采用 3 層無收斂的 CLOS 組網(wǎng)結(jié)構(gòu)。

AIPod 高性能網(wǎng)絡(luò)也是百度智能云 AI 大底座中百度百舸的底層關(guān)鍵技術(shù)，決定了大模型訓(xùn)練的能力和效率。大規(guī)模、高帶寬、長穩(wěn)定的 AIPod 高性能網(wǎng)絡(luò)能夠幫助用戶更高效率、更低成本的訓(xùn)練自己的大模型。

除此之外，像三大運營商、思科、英特爾、博通、谷歌、新華三、中興、銳捷、青云等公司都有針對AI的不同應(yīng)用場景推出不同的行業(yè)解決方案，感興趣的朋友可以閱讀《盤點：AI 大模型背后不同玩家的網(wǎng)絡(luò)支撐》。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴