91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

國產(chǎn)InfiniBand網(wǎng)絡有多強?從此中國架起AI高速網(wǎng)絡!

晶芯觀察 ? 來源:未知 ? 作者:黃晶晶 ? 2026-03-20 11:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著AI大模型訓練與高通量推理計算需求持續(xù)擴大,萬卡級乃至更大規(guī)模的算力集群正成為主流形態(tài)。研究表明,在大規(guī)模分布式訓練中,網(wǎng)絡通信耗時占比已達到30-50%,網(wǎng)絡性能直接影響算力系統(tǒng)的整體效率。

算力網(wǎng)絡是智算集群的核心基礎條件之一。超高帶寬、極低延時、無損傳輸和擴展是超大規(guī)模智算集群對網(wǎng)絡提出的新要求。

中科曙光自2022年開始進行RDMA的技術(shù)研究,在近日宣布實現(xiàn)國產(chǎn)高端原生RDMA技術(shù)重大突破,正式發(fā)布首款全棧自研400G無損高速網(wǎng)絡——scaleFabric。該產(chǎn)品基于原生RDMA架構(gòu),從底層的112G SerDes IP、硬件設備到上層的管理軟件實現(xiàn)100%自研,填補了國內(nèi)數(shù)據(jù)中心高速網(wǎng)絡領域的空白,以比肩國際頂尖同類產(chǎn)品的性能表現(xiàn),為超大規(guī)模智算集群鋪就了一條高帶寬、低時延、真無損、超可靠的“算力大動脈”。

尤其在大規(guī)模AI訓練系統(tǒng)中,網(wǎng)絡互聯(lián)能力已成為影響算力利用率的關(guān)鍵變量。scaleFabric的發(fā)布,標志著國產(chǎn)智算網(wǎng)絡在高端RDMA領域?qū)崿F(xiàn)重大突破。

自研112G SerDes IP、兩款高速網(wǎng)絡芯片、三款網(wǎng)卡/交換機

中科曙光scaleFabric是國內(nèi)首款原生無損RDMA高速網(wǎng)絡,面向超大規(guī)模智算集群設計,從核心關(guān)鍵IP、交換芯片、網(wǎng)卡到交換機、驅(qū)動與管理軟件均實現(xiàn)自主研發(fā),構(gòu)建起從硬件到軟件的完整技術(shù)體系。

scaleFabric的核心是自主研發(fā)的兩顆高速網(wǎng)絡芯片即scaleFabric400網(wǎng)卡芯片和交換芯片。主要涵蓋三款產(chǎn)品scaleFabric400單口標準網(wǎng)卡,scaleFabric400 1U800G液冷交換機,以及scaleFabric400 2U 800G風冷交換機。





性能方面,scaleFabric400網(wǎng)卡基于PCIe5.0接口,端口帶寬達400Gbps,端到端通信時延低至0.9微秒;scaleFabric400交換機單端口帶寬達800Gbps,整機交換容量可達雙向64Tbps,交換時延約260納秒,支持800Gbps×40或400Gbps×80端口擴展。這一性能組合,可充分滿足萬卡級AI訓練集群對高帶寬、低時延網(wǎng)絡的極致需求。

穩(wěn)定性與擴展能力上,產(chǎn)品采用基于信用的無損流控機制,從根源規(guī)避擁塞丟包風險,鏈路故障恢復時間小于1毫秒,已支撐近萬卡集群持續(xù)穩(wěn)定運行驗證超10個月。

英偉達NDR相比,交換機端口密度提升25%,網(wǎng)卡最大QP數(shù)支持提升100%。



在擴展性方面,傳統(tǒng)上InfiniBand的空間能支持到16位,使得其所支持最大的組網(wǎng)規(guī)模只能做到不到5萬卡,這難以滿足當前算力中心對于10萬卡集群的需求。中科曙光通過重點優(yōu)化擴展性,可以將scaleFabric網(wǎng)絡規(guī)模支持到11.4萬卡,比傳統(tǒng)IB提升2.33倍,同時,也利用端口密度優(yōu)勢,整體組網(wǎng)成本可以下降30%。實測數(shù)據(jù),基本上做到和NDR相當?shù)乃剑糠謹?shù)據(jù)甚至優(yōu)于NDR系列,在性能上已經(jīng)完全具備和國際競爭水平。





生態(tài)建設方面,注重與IB的生態(tài)兼容,scaleFabric提供原生接口,可以全面兼容各種通信庫,無縫兼容各種HPC和AI應用、大模型訓練,可以在不改代碼的情況下,直接遷移到基于scaleFabric的系統(tǒng)上,做到應用無感。同時,在網(wǎng)絡管理和維護方面,都兼容IB用戶的使用習慣,方便將過去IB用戶對于IB的使用經(jīng)驗無縫遷移到scaleFabric。針對新型智算場景例如IDMA等新型模式,scaleFabric也能做到支持,更好地幫助用戶始終站在AI創(chuàng)新的最前沿。

為何選擇InfiniBand路線?


長期以來,從高速SerDes IP、核心芯片到IB網(wǎng)卡、IB交換機等設備,InfiniBand相關(guān)產(chǎn)業(yè)鏈基本被海外廠商壟斷。隨著AI算力需求快速增長及數(shù)據(jù)中心網(wǎng)絡持續(xù)演進,自主高性能RDMA網(wǎng)絡正成為產(chǎn)業(yè)關(guān)注焦點。

在大規(guī)模智算集群領域,RDMA(遠程直接內(nèi)存訪問)網(wǎng)絡已成為算力中心的基本需求,憑借零丟包、高帶寬、低延遲等特征,可極大提升通信效率。其中,InfiniBand憑借低時延與原生無損傳輸能力,在全球頂級超算與AI集群中被廣泛采用。根據(jù)TOP500榜單,目前全球約60%的高性能計算系統(tǒng)采用InfiniBand網(wǎng)絡架構(gòu)。

中科曙光高級副總裁李斌表示,當前400G端口帶寬網(wǎng)絡逐漸成為HPC/AI集群網(wǎng)絡主流,未來向800G持續(xù)演進。在這一領域,RDMA網(wǎng)絡成為算力中心的基本需求,成為整個AI網(wǎng)絡的事實上的標準。在這一領域,實際上存在著兩大技術(shù)路線,分別是InfiniBand和RoCE,雖然當前有一個呼聲,由互聯(lián)網(wǎng)大廠推動用RoCE取代InfiniBand,但是實際上InfiniBand的技術(shù)路線在AI/HPC中有不可替代的優(yōu)勢,是真正的無損網(wǎng)絡,而無損的特性對RDMA性能的發(fā)揮具有優(yōu)勢,便于更好對網(wǎng)絡進行管理。



“在RDMA網(wǎng)絡中,少量丟包會造成性巨大的波動,這也是為什么曙光一直在堅持走InfiniBand路線的原因。相比之下,RoCE需要大量的調(diào)優(yōu)等一系列的工作,才能保證達到無損的效率。InfiniBand天然的具備無損性質(zhì)?!币虼?,scaleFabric采用與InfiniBand相同的基于信用的機制和鏈路機制,使得無論應用如何調(diào)整,都可以從理論上證明無損的狀態(tài),真正做到即插即用。

如何保證底層高速信號的質(zhì)量很關(guān)鍵,必須依靠高速Serdes的能力。因此,中科曙光組建研發(fā)團隊,自研高速Serdes IP,從而可以做到在42db衰減下實現(xiàn)百萬分之一誤碼率。scaleFabric面向多樣化的各種復雜的鏈路環(huán)境下都有保證網(wǎng)絡穩(wěn)定可靠的底氣。

此外,曙光公司從系統(tǒng)出發(fā),研發(fā)了鏈路故障路由快速恢復技術(shù),可以將鏈路故障路由恢復時間降低到毫秒級,延時不會隨著網(wǎng)絡規(guī)模的增長而增長,保障應用無感,進一步保障網(wǎng)絡的可用性。

中科曙光已形成“算、存、網(wǎng)”一體方案

在大規(guī)模并行計算中一個計算任務的完成,涉及計算、存儲、網(wǎng)絡三個環(huán)節(jié)。其中計算負責運算數(shù)據(jù),存儲負責提供數(shù)據(jù),網(wǎng)絡負責傳輸數(shù)據(jù)。如果任何其中一個環(huán)節(jié)成為瓶頸,整個系統(tǒng)的效能都會下降,尤其在上千節(jié)點、上萬核心的計算規(guī)模下,各種性能瓶頸造成的不均衡狀態(tài)會被指數(shù)級放大。

中科曙光高速網(wǎng)絡互聯(lián)產(chǎn)品部總工程師萬偉分析,從理論上看,計算任務的時間由計算、內(nèi)存訪問、網(wǎng)絡通信,還有IO讀寫時間組成。因此,計算系統(tǒng)的效率并不等同于系統(tǒng)的峰值算力。隨著計算規(guī)模的擴大,通信時間和IO時間占比會迅速上升,這實際上是阿姆達爾定律在工程系統(tǒng)中的實際體現(xiàn)。

從能效的角度來看,當網(wǎng)絡性能不足時CPU在等待,服務器在耗電,但計算單元并沒有真正工作。算力利用率理論上可以達到90%以上,但在網(wǎng)絡瓶頸的情況下,算力利用率可能只有50%左右。也就是說,有接近一半的算力會被浪費掉。

比如汽車的啟動分析、航空仿真等工業(yè)仿真類應用,其網(wǎng)絡規(guī)模巨大,通常會超過2億網(wǎng)格。計算規(guī)模巨大,一般要兩千核以上的資源進行并行計算。數(shù)值規(guī)模巨大,單次任務產(chǎn)生的數(shù)值可達10TB以上。并且通信非常頻繁,節(jié)點間的進程會進行高頻的數(shù)據(jù)交換。因此,在這種場景下網(wǎng)絡的性能直接決定仿真的計算效能。

以工業(yè)界常用的Siemens Star CCM+為例說明,隨著并行規(guī)模的擴大,通信時間占比會迅速增加。當規(guī)模達到2048核的時候,通信占比接近48%的時間。也就是說,我們的CPU有接近一半的算力是無法操作出來的。更關(guān)鍵的是,這類應用對網(wǎng)絡延遲非常敏感,經(jīng)過測算,延遲每增加10微秒,其整體效能可能會下降20%。

因此,計算系統(tǒng)的性能不是單點的算力問題,而是計算、存儲、網(wǎng)絡三要素的協(xié)同效率問題。未來的高性能計算,本質(zhì)上是一項系統(tǒng)工程,只有三者協(xié)同優(yōu)化,系統(tǒng)才能發(fā)揮出真正的性能。

圍繞系統(tǒng)效能問題,曙光在核心硬件層面進行了系統(tǒng)布局。目前已經(jīng)完成了四款核心國產(chǎn)芯片的部署,包括國產(chǎn)CPU處理器、國產(chǎn)GPU加速器、P3E交換芯片以及片間的互聯(lián)芯片。這些芯片構(gòu)成了完整的國產(chǎn)算力技術(shù)結(jié)構(gòu)。



在網(wǎng)絡方面,中科曙光實現(xiàn)了核心能力的全棧自研,包括400G網(wǎng)卡芯片、800G交換芯片以及全面自研固件、驅(qū)動軟件技管理軟件。在并行計算中,國產(chǎn)IB的效率達到85%左右,而傳統(tǒng)的RoCE方案效率只有65%。在實際CFD軟件應用測試中,IB網(wǎng)絡通信在各節(jié)點規(guī)模下保持較高效率,即使節(jié)點增加到64節(jié)點以上,scaleFabric效率仍保持70%-80%,遠高于RoCE的方案。總的來說,IB網(wǎng)絡是處理復雜計算網(wǎng)絡的一個理想選擇。



在存儲方面,目前曙光做了分布式自研存儲系統(tǒng),主要特點包括高穩(wěn)定性、低延時和高吞吐。同時實現(xiàn)了5級緩存加速體系,可以實現(xiàn)計算節(jié)點的內(nèi)存到緩存到全棧存儲。對整個數(shù)值路徑進行了優(yōu)化,最終帶來的效果,IO性能最高提高到20倍左右。



為了實現(xiàn)存算傳的協(xié)同,中科曙光重點突破了四項關(guān)鍵技術(shù)。第一,高速互連網(wǎng)絡加高帶寬內(nèi)存。第二,并行分布式文件系統(tǒng)。第三,GPU直連網(wǎng)絡通信。第四,NUMA的拓撲優(yōu)化。通過這些技術(shù),可以大幅降低通信延遲、訪問延遲以及訪問沖突,從而提升系統(tǒng)的整體效能。

基于算存?zhèn)鞯?a href="http://m.makelele.cn/tags/耦合/" target="_blank">耦合架構(gòu),從系統(tǒng)層面進行協(xié)同優(yōu)化,實現(xiàn)20倍的IO性能提升,GPU算力利用率最高可以提升30%,同時網(wǎng)絡帶寬提升2倍,網(wǎng)絡延遲降低3倍,整體可以實現(xiàn)1+1+1大于3的效果。

為了將這些技術(shù)真正落地,曙光公司推出scaleX超集群系統(tǒng),將計算、互聯(lián)和散熱進行了深度的一體化集成。在scaleX中,單機柜可以集成640張GPU加速卡,并通過全鏈互聯(lián)的正交網(wǎng)絡架構(gòu),實現(xiàn)超帶寬、低延遲的節(jié)點間通信。同時,整套系統(tǒng)采用浸沒式相變液冷技術(shù),最高可以支持860千瓦級的功率密度,可以顯著提升數(shù)據(jù)中心的能效水平??梢哉fscaleX超集群不僅是算力設備,更是曙光面向未來智能計算的系統(tǒng)級的架構(gòu)創(chuàng)新。

在實際應用層面,scaleFabric目前已部署于位于鄭州的國家超算互聯(lián)網(wǎng)核心節(jié)點,支撐三套萬卡級scaleX智算集群上線運行,總規(guī)模達3萬卡。整個網(wǎng)絡部署只用了36個小時,目前累計1萬個客戶和10萬+的作業(yè)。

隨著產(chǎn)品在超大規(guī)模智算集群中的落地應用,國產(chǎn)原生RDMA技術(shù)路線正逐步走向成熟,圍繞其形成的高性能網(wǎng)絡產(chǎn)業(yè)生態(tài)也正在加速形成。

開放生態(tài),打造大規(guī)模普惠的高速網(wǎng)絡產(chǎn)品

曙光信息產(chǎn)業(yè)(北京)有限公司副總裁李柳表示,我們將牽頭成立光合組織高性能計算專委會AIDC高速網(wǎng)絡工作組,未來以開放的姿態(tài)聯(lián)合更多的國內(nèi)合作伙伴建立技術(shù)標準,基于這個平臺打造生態(tài)適配系統(tǒng),同時聯(lián)合國內(nèi)的一些科研力量,形成產(chǎn)學研體系,共同探索產(chǎn)業(yè)應用與發(fā)展。

萬偉認為,從技術(shù)路線上來說,我們有ScaleUp互聯(lián),ScaleOut互聯(lián),特別是超大規(guī)模系統(tǒng)上的性能和擴展性等方面做了考量。未來還將探索包括不同協(xié)議的融合,例如可能在原生RDMA上兼容RoCE等。另外,針對不同芯片的兼容性,和不同計算芯片的互聯(lián),將探索更高效的方式,比如計算芯片通過專有協(xié)議到網(wǎng)卡、芯片互聯(lián)協(xié)議的共享,與其他芯片直通等等。

李斌表示,面向未來,我們有信心把scaleFabric打造成國內(nèi)大規(guī)模廣泛使用且非常普惠的高速網(wǎng)絡產(chǎn)品。不僅是技術(shù)和產(chǎn)品保持國際競爭力,更重要的是秉持開放的態(tài)度,集合國內(nèi)算力廠商、系統(tǒng)集成、整機廠商等,串連整個產(chǎn)業(yè)鏈上下游的合作伙伴,在定義標準、接口、協(xié)議、以及商業(yè)模式等方面展開全方位的開放合作。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    重大突破!中科曙光scaleFabric國產(chǎn)原生RDMA高速網(wǎng)絡首發(fā)

    3月12日,中科曙光宣布實現(xiàn)國產(chǎn)高端原生RDMA技術(shù)重大突破,正式發(fā)布首款全棧自研400G無損高速網(wǎng)絡——scaleFabric。該產(chǎn)品基于原生RDMA架構(gòu),從底層的112G SerDes IP
    的頭像 發(fā)表于 03-12 20:03 ?2318次閱讀
    重大突破!中科曙光scaleFabric<b class='flag-5'>國產(chǎn)</b>原生RDMA<b class='flag-5'>高速</b><b class='flag-5'>網(wǎng)絡</b>首發(fā)

    中國移動聯(lián)合華為榮獲GSMA GLOMO“最佳AI使能網(wǎng)絡解決方案獎”

    在MWC26 巴塞羅那期間,華為與中國移動聯(lián)合打造的 “AI+Network”運維轉(zhuǎn)型方案榮獲GSMA GLOMO“最佳AI使能網(wǎng)絡解決方案”(Best?
    的頭像 發(fā)表于 03-09 16:54 ?875次閱讀

    華為和中國移動聯(lián)合發(fā)布2025年度高階示范區(qū)AI+網(wǎng)絡實踐成果

    3月2日,在MWC26 巴塞羅那期間的移動AI產(chǎn)業(yè)峰會上,華為與中國移動聯(lián)合發(fā)布了2025年度高階示范區(qū)AI+網(wǎng)絡的卓越實踐成果。2025年,華為與
    的頭像 發(fā)表于 03-05 14:20 ?801次閱讀

    Network X 2025丨華曦達 AI Home 賦能未來家庭網(wǎng)絡

    智能化演進方案,助力全球運營商為家庭用戶打造高效、可靠的網(wǎng)絡體驗。 連接升級:夯實 AI Home 網(wǎng)絡基礎 無縫、高速網(wǎng)絡連接是
    的頭像 發(fā)表于 10-17 09:38 ?377次閱讀

    GlobalData與華為探討AI網(wǎng)絡基礎設施的機遇與挑戰(zhàn)

    GlobalData 研究總監(jiān)Emir Halilovic 與華為數(shù)據(jù)通信產(chǎn)品線NCE數(shù)據(jù)通信領域總裁王輝共同探討了人工智能(AI)對網(wǎng)絡基礎設施帶來的機遇(高性能網(wǎng)絡需求、AI增強的
    的頭像 發(fā)表于 10-14 14:24 ?648次閱讀

    AI賦能6G與衛(wèi)星通信:開啟智能天網(wǎng)新時代

    \"天-地-空\"一體化的無縫網(wǎng)絡: 全球覆蓋:衛(wèi)星提供廣域覆蓋,6G提供高速率、低延遲的地面接入,AI實現(xiàn)智能調(diào)度 無縫切換:當用戶從地面網(wǎng)絡移動到衛(wèi)星覆蓋區(qū)域時,
    發(fā)表于 10-11 16:01

    AI網(wǎng)絡國產(chǎn)化破局未來可期

    近日,Hot Chips 2025大會聚焦高性能計算與網(wǎng)絡技術(shù)的突破性進展,國際廠商密集發(fā)布新一代網(wǎng)絡產(chǎn)品,折射出AI大模型浪潮下對算力&網(wǎng)絡架構(gòu)的迫切需求。在這場圍繞高性能、高吞吐、
    的頭像 發(fā)表于 09-18 15:19 ?1128次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>網(wǎng)絡</b><b class='flag-5'>國產(chǎn)</b>化破局未來可期

    睿海光電 200G 有源光纜:AI 時代高速互聯(lián)的技術(shù)標桿與場景實踐

    科技有限公司(REALSEA)憑借自主研發(fā)的 200G InfiniBand HDR 有源光纜(AOC)解決方案,正為全球客戶構(gòu)建穩(wěn)定、高效的智算網(wǎng)絡底層架構(gòu),重新定義高速互聯(lián)的技術(shù)標準。 一、200G 有源光纜的核心技術(shù)突破與
    的頭像 發(fā)表于 08-19 11:44 ?921次閱讀

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級

    引領AI時代網(wǎng)絡變革:睿海光電的核心競爭力 在AI時代,數(shù)據(jù)中心正經(jīng)歷從傳統(tǒng)架構(gòu)向AI工廠與AI云的轉(zhuǎn)型。
    發(fā)表于 08-13 19:01

    華為網(wǎng)絡智能體NetMaster榮獲2025 AI網(wǎng)絡技術(shù)“智驅(qū)應用標桿獎”

    [中國,北京,2025年8月9日]2025 AI網(wǎng)絡技術(shù)應用創(chuàng)新大會在北京成功舉辦。在本次大會期間的2025 AI網(wǎng)絡技術(shù)年度評選頒獎盛典上
    的頭像 發(fā)表于 08-12 09:40 ?2681次閱讀

    行業(yè)AI先鋒,為何網(wǎng)絡先行?

    行業(yè)AI先鋒的秘密,就寫在華為的網(wǎng)絡升級路線圖上
    的頭像 發(fā)表于 07-17 19:01 ?8883次閱讀
    行業(yè)<b class='flag-5'>AI</b>先鋒,為何<b class='flag-5'>網(wǎng)絡</b>先行?

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡智能診斷邁向 “自愈”時代

    模態(tài)的技術(shù)特性,DeepSeek正加速推動AI在金融、政務、科研及網(wǎng)絡智能化等關(guān)鍵領域的深度應用。 信而泰:AI推理引擎賦能網(wǎng)絡智能診斷新范式信而泰深度整合DeepSeek-R1大模型
    發(fā)表于 07-16 15:29

    華為榮獲2024年度中國SDN、NFV、網(wǎng)絡AI優(yōu)秀案例

    在今日舉行的2025年中國云網(wǎng)智聯(lián)大會上,中國通信標準化協(xié)會SDN/NFV/AI標準與產(chǎn)業(yè)推進委員會頒布了“2024年度SDN、NFV、網(wǎng)絡AI
    的頭像 發(fā)表于 04-25 16:02 ?1249次閱讀

    適用于數(shù)據(jù)中心和AI時代的800G網(wǎng)絡

    下降。 InfiniBand助力AI性能提升 在AI工廠中,InfiniBand網(wǎng)絡技術(shù)因其超低延遲和高帶寬,成為大規(guī)模模型訓練的主流
    發(fā)表于 03-25 17:35

    華為全新升級星河AI數(shù)據(jù)中心網(wǎng)絡

    在華為中國合作伙伴大會2025期間,以 “星河AI數(shù)據(jù)中心網(wǎng)絡,賦AI時代新動能”為主題的數(shù)據(jù)中心網(wǎng)絡分論壇圓滿落幕。本次論壇匯聚了來自全國
    的頭像 發(fā)表于 03-24 14:46 ?1153次閱讀