91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ETH-X超節(jié)點(diǎn):開(kāi)辟AI算力約束突破的新路徑

SDNLAB ? 來(lái)源:SDNLAB ? 2024-11-09 10:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

面對(duì)人工智能大模型的迅速發(fā)展及其對(duì)算力資源的急劇增長(zhǎng)需求,單芯片性能提升遭遇瓶頸,同時(shí)通過(guò)Scale Out策略擴(kuò)展多機(jī)集群以增加算力也遇到了局限性。在此背景下,中國(guó)信通院與騰訊攜手GPU、CPU交換機(jī)芯片制造商、服務(wù)器供應(yīng)商、網(wǎng)絡(luò)設(shè)備廠(chǎng)商及互聯(lián)網(wǎng)企業(yè)等多方力量,共同發(fā)起超大帶寬ETH-X(以太網(wǎng))超節(jié)點(diǎn)計(jì)劃,旨在通過(guò)技術(shù)創(chuàng)新與行業(yè)合作,構(gòu)建開(kāi)放可擴(kuò)展的HBD(高帶寬域)超節(jié)點(diǎn)系統(tǒng)樣機(jī),探索AI算力提升新途徑,為構(gòu)建ETH-X超節(jié)點(diǎn)互聯(lián)開(kāi)放協(xié)作產(chǎn)業(yè)生態(tài)提供支撐。同時(shí),將共同編制相關(guān)技術(shù)規(guī)范,為行業(yè)樹(shù)立標(biāo)準(zhǔn),引導(dǎo)超節(jié)點(diǎn)技術(shù)高質(zhì)發(fā)展。

AI大模型發(fā)展與算力需求

AI大模型的發(fā)展依賴(lài)于持續(xù)提升算力。根據(jù)Scaling Law(規(guī)模定理),增大模型規(guī)模與增加訓(xùn)練數(shù)據(jù)量是直接提升AI大模型智能水平與性能的關(guān)鍵途徑。但對(duì)集群算力需求的將呈指數(shù)級(jí)增長(zhǎng)。

長(zhǎng)序列是AI大模型發(fā)展的另一個(gè)重要方向。長(zhǎng)序列提高AI大模型回答問(wèn)題的質(zhì)量、處理復(fù)雜任務(wù)的能力以及更強(qiáng)的記憶力和個(gè)性化能力的同時(shí),也會(huì)加大對(duì)訓(xùn)練和推理算力資源的需求1,尤其是對(duì)顯存資源的需求。因此滿(mǎn)足AI大模型發(fā)展需求,算力能力的持續(xù)提升成為一個(gè)重要基礎(chǔ)。

f5b523e4-903e-11ef-a511-92fbcf53809c.png

f5d925fa-903e-11ef-a511-92fbcf53809c.png

圖1 長(zhǎng)序列帶來(lái)的準(zhǔn)確率收益以及顯存需求

單芯片算力提升遇阻、

scale out集群算力提升受限

當(dāng)前,提升集群算力已面臨一些明顯的制約因素。首先,單芯片性能提升受到HBM容量帶寬增長(zhǎng)趕不上算力增長(zhǎng)速度的限制,內(nèi)存墻問(wèn)題制約算法發(fā)揮。如在典型模型與并行方式下,Nvidia Hopper一代芯片的有效算力(HFU)明顯低于Ampere一代芯片,如圖2所示。另一種通過(guò)Scale out擴(kuò)展集群規(guī)模提升整體算力的方式也受到GBS(Global Batch Size)不能無(wú)限增長(zhǎng)的限制,導(dǎo)致在集群規(guī)模增大到一定程度后,HFU出現(xiàn)明顯下降。最后,模型參數(shù)量增大需要更大的模型并行規(guī)模,模型并行中Tensor并行或MOE類(lèi)型的Expert并行都會(huì)在GPU之間產(chǎn)生大量的通信,并且這部分通信很難與計(jì)算進(jìn)行overlap。而當(dāng)前典型一機(jī)八卡服務(wù)器限制了Tensor并行的規(guī)模或Expert并行通過(guò)機(jī)間網(wǎng)絡(luò),這都會(huì)導(dǎo)致HFU無(wú)法提高。

f60dbb1c-903e-11ef-a511-92fbcf53809c.png

圖2 不同型號(hào)GPU以及不同規(guī)模集群對(duì)HFU的影響

通過(guò)scale up擴(kuò)大HBD(超帶寬域)的超節(jié)點(diǎn)成為突破方向

HBD(High Bandwidth Domain)是一組以超帶寬(HB)互聯(lián)GPU-GPU的系統(tǒng)2。HBD內(nèi)GPU-GPU通信帶寬是HBD之間GPU-GPU通信帶寬的數(shù)倍。如Nvidia H100 提供900GBps HB帶寬,HBD間GPU-GPU通信帶寬只有100GBps。因此在模型并行中將數(shù)據(jù)量大、無(wú)法overlap的部分限制在一個(gè)HBD內(nèi)完成。

當(dāng)前,HBD限制在一臺(tái)服務(wù)器內(nèi),典型1機(jī)8卡服務(wù)器是8張GPU卡之間通過(guò)某種HB連接技術(shù)實(shí)現(xiàn)互聯(lián),構(gòu)成一個(gè)HBD=8的系統(tǒng)。然而更大的參數(shù)規(guī)模、更長(zhǎng)的序列長(zhǎng)度、更多的MOE專(zhuān)家數(shù)量、更大的集群規(guī)模,都造成了更多的通信數(shù)據(jù)量。HBD=8的情況下,大量的數(shù)據(jù)通信均需經(jīng)過(guò)HBD間的scale out網(wǎng)絡(luò),因此通信占比提高、HFU下降的問(wèn)題凸顯。

通過(guò)構(gòu)建更大的HBD系統(tǒng),以scale up方式提升系統(tǒng)算力是解決上述問(wèn)題的有效途徑之一。如MIT與Meta的研究論文中,通過(guò)建模分析3,論證了擴(kuò)大HBD對(duì)訓(xùn)練性能的提升效果。另外,Nvidia也實(shí)現(xiàn)了不同規(guī)模HBD系統(tǒng)并進(jìn)行了部署與驗(yàn)證4。

f633b646-903e-11ef-a511-92fbcf53809c.png

f65e4974-903e-11ef-a511-92fbcf53809c.png

圖3 HBD超節(jié)點(diǎn)典型代表與業(yè)務(wù)收益舉例

Nvidia將HB互聯(lián)不僅用于GPU-GPU之間,而是將其應(yīng)用到GPU-CPU/Memory的超大帶寬互聯(lián),例如GH200、GB200產(chǎn)品。通過(guò)此方式為GPU提供一個(gè)超帶寬訪(fǎng)問(wèn)CPU/Memory的能力。

Nvidia產(chǎn)品具備支持GPU-CPU/Memory的統(tǒng)一內(nèi)存編制以及GPU通過(guò)內(nèi)存語(yǔ)義接口read/write直接訪(fǎng)問(wèn)CPU/Memory的能力,具有更高效、更直接的特點(diǎn)。但其同步操作的方式會(huì)對(duì)時(shí)延進(jìn)行限制,制約可訪(fǎng)問(wèn)CPU/Memory的距離與容量。另外,目前的軟件生態(tài)中,未有支持直接通過(guò)內(nèi)存語(yǔ)義訪(fǎng)問(wèn)CPU/Memory的系統(tǒng)。

相反若使用異步的memory offload方式將降低對(duì)時(shí)延的約束,并發(fā)利用多節(jié)點(diǎn)CPU/Memory,發(fā)揮HB互聯(lián)的帶寬優(yōu)勢(shì)。另外,當(dāng)前memory offload已具備一定軟件生態(tài)上的基礎(chǔ),例如Zero offload5。

綜上所述,超節(jié)點(diǎn)是一個(gè)以超大帶寬(HB)互聯(lián)16卡以上GPU-GPU以及GPU-CPU/Memory的scale up系統(tǒng),以HBD超節(jié)點(diǎn)為單位,通過(guò)傳統(tǒng)scale out擴(kuò)展方式可形成更大規(guī)模、更高效的算力集群。超節(jié)點(diǎn)Scale Up的核心需求是超大帶寬(HB),但規(guī)模不需要很大。Scale Out的核心需求是超大規(guī)模。因此Scale Up網(wǎng)絡(luò)與Scale Out網(wǎng)絡(luò)更適合是相互獨(dú)立共存的兩張網(wǎng)絡(luò)。

f6866990-903e-11ef-a511-92fbcf53809c.png

圖4 Scale Up超大帶寬與Scale Out超大規(guī)模共同構(gòu)建高算力AI集群

ODCC ETH-X計(jì)劃構(gòu)建開(kāi)放超節(jié)點(diǎn)產(chǎn)業(yè)生態(tài)

超節(jié)點(diǎn)的核心是HB互聯(lián)技術(shù),當(dāng)前工業(yè)界已實(shí)現(xiàn)的超節(jié)點(diǎn)系統(tǒng)均是采用私有技術(shù)與協(xié)議實(shí)現(xiàn)HB互聯(lián),例如Nvidia的NVLINK。但此類(lèi)私有技術(shù)與協(xié)議由單一企業(yè)進(jìn)行維護(hù),無(wú)法保證技術(shù)長(zhǎng)期、高效的發(fā)展。另外,從HBD超節(jié)點(diǎn)產(chǎn)品完善角度也無(wú)法保證系統(tǒng)的開(kāi)放,導(dǎo)致無(wú)法形成良性、開(kāi)放的產(chǎn)業(yè)生態(tài)。

以太網(wǎng)技術(shù)憑借開(kāi)放的生態(tài)、多樣的產(chǎn)業(yè)鏈環(huán)境,為技術(shù)的長(zhǎng)期演進(jìn)發(fā)展提供支撐。當(dāng)前以太網(wǎng)技術(shù)上從端口帶寬及交換容量方面已具有較強(qiáng)的競(jìng)爭(zhēng)基礎(chǔ)。如以太網(wǎng)單端口800G MAC標(biāo)準(zhǔn)已成熟并產(chǎn)業(yè)化,以太網(wǎng)單芯片51.2T交換容量 ETH-switch也已在2023年產(chǎn)品化商用。

目前,以太網(wǎng)HB接口GPU產(chǎn)品的日益豐富,HBD超節(jié)點(diǎn)系統(tǒng)正逐步依托于以太網(wǎng)互聯(lián)技術(shù),實(shí)現(xiàn)向更為模塊化、多元化的結(jié)構(gòu)轉(zhuǎn)型,有效促進(jìn)了多方廠(chǎng)商的積極參與,各廠(chǎng)商專(zhuān)精于系統(tǒng)內(nèi)的不同組件或子系統(tǒng)開(kāi)發(fā),顯著提升了HBD超節(jié)點(diǎn)產(chǎn)品化的多樣性和方案的豐富度,為HBD超節(jié)點(diǎn)技術(shù)長(zhǎng)期演進(jìn)奠定穩(wěn)固基石,確保其在應(yīng)對(duì)未來(lái)挑戰(zhàn)時(shí)能夠持續(xù)進(jìn)化,保持領(lǐng)先的技術(shù)競(jìng)爭(zhēng)力與生態(tài)活力。

f6c070b8-903e-11ef-a511-92fbcf53809c.png

f6f73b34-903e-11ef-a511-92fbcf53809c.png

圖5 ETH-X超節(jié)點(diǎn)參考架構(gòu)與預(yù)期收益評(píng)估

f721f7d4-903e-11ef-a511-92fbcf53809c.png

圖6 ETH-X技術(shù)規(guī)范構(gòu)成與項(xiàng)目計(jì)劃

為推動(dòng)算力產(chǎn)業(yè)的發(fā)展,ODCC網(wǎng)絡(luò)組啟動(dòng)了ETH-X超節(jié)點(diǎn)系列項(xiàng)目。該項(xiàng)目由中國(guó)信通院、騰訊聯(lián)合快手科技、燧原科技、壁仞科技、華勤技術(shù)、銳捷網(wǎng)絡(luò)、新華三、云豹智能、云合智網(wǎng)、盛科通信、立訊精密、光迅科技等合作伙伴共同推動(dòng),以產(chǎn)品化樣機(jī)以及相關(guān)技術(shù)規(guī)范為目標(biāo),打造大型多GPU互聯(lián)算力集群系統(tǒng)。該項(xiàng)目計(jì)劃在2025年秋季前完成ETH-X超節(jié)點(diǎn)樣機(jī)軟硬件研發(fā)與相關(guān)業(yè)務(wù)系統(tǒng)驗(yàn)證測(cè)試,同時(shí)發(fā)布ETH-X超節(jié)點(diǎn)技術(shù)規(guī)范1.0。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39820

    瀏覽量

    301492
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50102

    瀏覽量

    265514
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1533

    瀏覽量

    16749

原文標(biāo)題:ETH-X超節(jié)點(diǎn):探索突破AI算力約束的新途徑

文章出處:【微信號(hào):SDNLAB,微信公眾號(hào):SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    中興通訊重磅發(fā)布節(jié)點(diǎn)技術(shù)白皮書(shū)

    近日,中興通訊重磅發(fā)布《節(jié)點(diǎn)技術(shù)白皮書(shū)》,提出以節(jié)點(diǎn)為核心打造標(biāo)準(zhǔn)化“AI工廠(chǎng)”,通過(guò)系統(tǒng)級(jí)架構(gòu)創(chuàng)新
    的頭像 發(fā)表于 02-10 13:47 ?401次閱讀

    中科曙光3套scaleX萬(wàn)卡集群落地國(guó)家互聯(lián)網(wǎng)鄭州核心節(jié)點(diǎn)

    2月5日,由中科曙光提供的3套萬(wàn)卡集群系統(tǒng)在國(guó)家互聯(lián)網(wǎng)鄭州核心節(jié)點(diǎn)同時(shí)上線(xiàn)試運(yùn)行,成為全國(guó)首個(gè)實(shí)現(xiàn)3萬(wàn)卡部署、且實(shí)際投入運(yùn)營(yíng)的最大國(guó)產(chǎn)AI
    的頭像 發(fā)表于 02-09 10:32 ?491次閱讀

    北大團(tuán)隊(duì)最新研究:AI芯片提升數(shù)倍,能效提升90倍

    首次實(shí)現(xiàn)后摩爾新器件異質(zhì)集成的多物理域融合傅里葉變換系統(tǒng)。 ? 這一全新計(jì)算架構(gòu)將傅里葉變換計(jì)算速度從當(dāng)前每秒約1300億次提升至每秒約5000億次,提升近4倍,能效提升90倍,為新一代計(jì)算體系的發(fā)展
    的頭像 發(fā)表于 01-15 09:31 ?1074次閱讀

    湘軍,讓變成生產(chǎn)?

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    硅芯科技:AI突破,新型堆疊EDA工具持續(xù)進(jìn)化

    電子發(fā)燒友網(wǎng)報(bào)道(文/黃晶晶)先進(jìn)封裝是突破危機(jī)的核心路徑。2.5D/3D Chiplet異構(gòu)集成可破解內(nèi)存墻、功耗墻與面積墻,但面臨多物理場(chǎng)分析、測(cè)試容錯(cuò)等EDA設(shè)計(jì)挑戰(zhàn)。現(xiàn)有E
    的頭像 發(fā)表于 10-31 09:16 ?1.3w次閱讀
    硅芯科技:<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>突破</b>,新型堆疊EDA工具持續(xù)進(jìn)化

    華為發(fā)布全球最強(qiáng)節(jié)點(diǎn)和集群

    在華為全聯(lián)接大會(huì)2025(HUAWEI CONNECT 2025)上,華為發(fā)布最強(qiáng)節(jié)點(diǎn)和集群,并表示將發(fā)展生態(tài)作為公司核心戰(zhàn)略,提升到前所未有的戰(zhàn)略高度。在計(jì)算領(lǐng)域,鯤鵬昇騰堅(jiān)持
    的頭像 發(fā)表于 10-10 17:29 ?2257次閱讀

    節(jié)點(diǎn)+集群”:華為撞出來(lái)的之路

    節(jié)點(diǎn)+集群”,成為徹底解決AI困局的契機(jī)
    的頭像 發(fā)表于 09-24 10:55 ?1186次閱讀
    “<b class='flag-5'>超</b><b class='flag-5'>節(jié)點(diǎn)</b>+集群”:華為撞出來(lái)的<b class='flag-5'>算</b><b class='flag-5'>力</b>之路

    華為節(jié)點(diǎn)互聯(lián)技術(shù)引領(lǐng)AI基礎(chǔ)設(shè)施新范式

    今日,華為全聯(lián)接大會(huì)2025在上海啟幕,華為副董事長(zhǎng)、輪值董事長(zhǎng)徐直軍發(fā)表題為“以開(kāi)創(chuàng)的節(jié)點(diǎn)互聯(lián)技術(shù),引領(lǐng)AI基礎(chǔ)設(shè)施新范式”的主題演講,正式發(fā)布全球最強(qiáng)
    的頭像 發(fā)表于 09-20 16:15 ?2141次閱讀

    中興通訊榮獲2025中國(guó)大會(huì)年度重大突破成果獎(jiǎng)

    近日,在2025中國(guó)大會(huì)上,中興通訊憑借“基于GPU卡間高速互聯(lián)開(kāi)放架構(gòu)和自研‘凌云’AI交換芯片的智
    的頭像 發(fā)表于 08-28 14:40 ?5678次閱讀

    突破傳統(tǒng)桎梏,PPEC Workbench 開(kāi)啟電源智能化設(shè)計(jì)新路徑

    匹配。 PPEC Workbench 電力電子智能化設(shè)計(jì)平臺(tái)憑借圖形化算法編程、智能化設(shè)計(jì)、高效協(xié)同等核心理念,突破了傳統(tǒng)電源設(shè)計(jì)的限制,為行業(yè)開(kāi)辟了智能化、高效化的全新設(shè)計(jì)路徑。它不僅為電力電子行業(yè)的發(fā)展注入了新動(dòng)力,更讓我們
    發(fā)表于 08-26 11:40

    多達(dá) 48 個(gè)計(jì)算節(jié)點(diǎn)!Firefly 推出 CSC2-N48 AI 服務(wù)器

    Firefly最新推出CSC2-N48服務(wù)器,內(nèi)置48個(gè)分布式計(jì)算節(jié)點(diǎn),單節(jié)點(diǎn)可提供6TOPS-157TOPS
    的頭像 發(fā)表于 08-20 16:37 ?1613次閱讀
    多達(dá) 48 個(gè)計(jì)算<b class='flag-5'>節(jié)點(diǎn)</b>!Firefly 推出 CSC2-N48 <b class='flag-5'>AI</b> <b class='flag-5'>算</b><b class='flag-5'>力</b>服務(wù)器

    立訊技術(shù)解讀ETH-X節(jié)點(diǎn)高速互連技術(shù)的現(xiàn)狀與未來(lái)

    當(dāng)前,人工智能技術(shù)驅(qū)動(dòng)全球數(shù)據(jù)中心向智中心加速演進(jìn),傳統(tǒng)架構(gòu)在承載AI大模型訓(xùn)練時(shí)暴露出顯著瓶頸--資源調(diào)度碎片化、異構(gòu)協(xié)同低效、能源利用率不足等問(wèn)題。在此背景下,行業(yè)亟需通過(guò)技
    的頭像 發(fā)表于 07-03 09:44 ?2484次閱讀
    立訊技術(shù)解讀<b class='flag-5'>ETH-X</b><b class='flag-5'>超</b><b class='flag-5'>節(jié)點(diǎn)</b>高速互連技術(shù)的現(xiàn)狀與未來(lái)

    奇異摩爾邀您相約2025中國(guó)AI大會(huì)

    在2025中國(guó)AI大會(huì)上,奇異摩爾首席網(wǎng)絡(luò)架構(gòu)專(zhuān)家葉棟將帶來(lái)“AI原生時(shí)代 —共筑節(jié)點(diǎn)的網(wǎng)
    的頭像 發(fā)表于 06-17 17:49 ?1533次閱讀

    華為云黃瑾:昇騰云CloudMatrix 384節(jié)點(diǎn)六大科技創(chuàng)新,定義下一代AI基礎(chǔ)設(shè)施

    難以支撐 AI 技術(shù)的代際躍遷,節(jié)點(diǎn)架構(gòu)的誕生不僅是技術(shù)的突破,更是以工程化創(chuàng)新開(kāi)辟 AI 產(chǎn)
    的頭像 發(fā)表于 05-17 10:31 ?4638次閱讀

    DeepSeek推動(dòng)AI需求:800G光模塊的關(guān)鍵作用

    集群的部署過(guò)程中,帶寬瓶頸成為制約發(fā)揮的關(guān)鍵因素,而光模塊的速率躍升成為突破這一瓶頸的核心驅(qū)動(dòng)力。 光模塊速率躍升 隨著
    發(fā)表于 03-25 12:00