91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解析DCQCN:RDMA在數(shù)據(jù)中心網(wǎng)絡(luò)的關(guān)鍵擁塞控制協(xié)議

星融元Asterfusion ? 2025-09-15 11:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DCQCN ( Data Center Quantized Congestion Notification),數(shù)據(jù)中心量化擁塞通知。它是一種專門為數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)計(jì)的端到端擁塞控制協(xié)議。其核心目的是在使用RDMA(RoCEv2) 的網(wǎng)絡(luò)中,高效地管理網(wǎng)絡(luò)擁塞,從而保證高吞吐、低延遲和零丟包(或極低丟包)。

簡單來說,DCQCN就是RDMA在以太網(wǎng)(RoCE)環(huán)境中的“交通警察”,它確保高速數(shù)據(jù)流不會造成網(wǎng)絡(luò)堵塞。

本文參閱文獻(xiàn):Congestion Control for Large-Scale RDMA Deployments.pdf

為什么需要DCQCN?

現(xiàn)代數(shù)據(jù)中心應(yīng)用需要高吞吐量和超低延遲網(wǎng)絡(luò),具有低 CPU 開銷。標(biāo)準(zhǔn) TCP/IP 堆棧不能滿足這些要求,但RDMA可以。在 IP 路由的數(shù)據(jù)中心網(wǎng)絡(luò)上,RDMA 使用 RoCEv2 協(xié)議部署,該協(xié)議依賴于基于優(yōu)先級的流量控制 (PFC) 可實(shí)現(xiàn)無中斷網(wǎng)絡(luò)。

wKgZO2jHiweAYE4iAANw32ksQOI391.png

但是,由于隊(duì)頭阻塞和帶寬分配不均等問題,PFC 會導(dǎo)致應(yīng)用程序性能不佳。為了緩解這些問題,DCQCN誕生了。

DCQCN是如何工作的?

wKgZPGjHixuAE0enAAA87D_CoGo407.png

DCQCN 是一種基于速率的擁塞控制協(xié)議,它模仿了著名的QCN(Quantized Congestion Notification),但做了適應(yīng)數(shù)據(jù)中心的修改,更適合RDMA的高性能、低開銷特性。

  • 發(fā)送方:速率調(diào)節(jié)的起點(diǎn)(運(yùn)行RDMA應(yīng)用的服務(wù)器)
  • 交換機(jī):擁塞的檢測和通知者(支持ECN的交換機(jī))
  • 接收方:通知的轉(zhuǎn)發(fā)者(運(yùn)行RDMA應(yīng)用的服務(wù)器)

整個過程可以分為以下四個步驟:

步驟 1: 擁塞檢測與標(biāo)記(在交換機(jī)發(fā)生)

交換機(jī)持續(xù)監(jiān)控其出口端口的隊(duì)列深度。當(dāng)某個端口的隊(duì)列長度超過一個預(yù)設(shè)的閾值(Kmin)時,交換機(jī)判斷該端口發(fā)生了擁塞。對于經(jīng)過該擁塞端口的數(shù)據(jù)包,交換機(jī)會以一定概率將其IP頭中的ECN(顯式擁塞通知) 字段標(biāo)記為“擁塞遭遇”(CE)。這個概率隨著隊(duì)列變長而增加。

步驟 2: 擁塞通知(接收方 -> 發(fā)送方)

被標(biāo)記了ECN的數(shù)據(jù)包會繼續(xù)被發(fā)送到接收方服務(wù)器。接收方的網(wǎng)卡識別到這個ECN標(biāo)記后,不會像傳統(tǒng)TCP一樣等待ACK包,而是立即生成并發(fā)送一個名為“CNP”(Congestion Notification Packet)的特殊控制包 directly返回給發(fā)送方。

CNP包非常?。s64字節(jié)),擁有最高優(yōu)先級,以確保它能最快速度地返回給發(fā)送方,幾乎無延遲地報(bào)告擁塞。

步驟 3: 速率調(diào)節(jié)(在發(fā)送方發(fā)生)

發(fā)送方收到CNP包后,就知道其發(fā)出的數(shù)據(jù)流在某處造成了網(wǎng)絡(luò)擁塞。發(fā)送方會根據(jù)內(nèi)置的算法立即降低其數(shù)據(jù)發(fā)送速率(Rate)。這個降速過程是多級的:

  • 快速恢復(fù):首先進(jìn)行一次大幅度的降速(乘以一個小于1的因子,如 0.5),以快速緩解網(wǎng)絡(luò)壓力。
  • 主動減少:之后進(jìn)入一個階段,持續(xù)地、較小幅度地降低速率。
  • 主動增加:當(dāng)一段時間內(nèi)沒有收到新的CNP包時,發(fā)送方會認(rèn)為擁塞已經(jīng)解除,開始緩慢地、逐步地增加發(fā)送速率(加法增加),以重新探知可用帶寬。

這個“降-增”的循環(huán)過程使得DCQCN能夠動態(tài)、平滑地適應(yīng)網(wǎng)絡(luò)狀態(tài),既不會過于激進(jìn)導(dǎo)致帶寬浪費(fèi),也不會過于保守導(dǎo)致延遲升高。

DCQCN的應(yīng)用與部署

DCQCN由Mellanox(現(xiàn)NVIDIA的一部分)在其網(wǎng)卡中實(shí)現(xiàn),并廣泛應(yīng)用于微軟等大型數(shù)據(jù)中心,以支持其云存儲、分布式緩存等需要高吞吐量和低延遲的服務(wù)。由于其重要性和影響力,DCQCN在2025年獲得了SIGCOMM“經(jīng)典之作獎”。

  • AI與大模型訓(xùn)練:在數(shù)據(jù)并行、流水線并行和張量并行等分布式訓(xùn)練模式中,節(jié)點(diǎn)間需要頻繁同步海量參數(shù)(通常達(dá)百GB級別)。DCQCN能有效減少網(wǎng)絡(luò)擁塞,避免因PFC“剎?!被騺G包導(dǎo)致的計(jì)算長尾延遲,保障訓(xùn)練任務(wù)高效運(yùn)行。
  • 高性能計(jì)算(HPC)??:用于需要極高網(wǎng)絡(luò)帶寬和極低延遲的科學(xué)計(jì)算、模擬等場景,DCQCN幫助RDMA實(shí)現(xiàn)接近線速的傳輸。
  • 云存儲與分布式系統(tǒng):如微軟的云存儲服務(wù),DCQCN保障了后端存儲節(jié)點(diǎn)間大數(shù)據(jù)塊傳輸?shù)男屎头€(wěn)定性,同時極大降低了CPU開銷。

要想實(shí)現(xiàn)DCQCN,你的數(shù)據(jù)中心網(wǎng)絡(luò)需要滿足一些特定條件,并理解其三個核心組件(對應(yīng)下圖)的職責(zé):

組件角色與職責(zé)硬件要求
?交換機(jī) (CP)??監(jiān)控出口隊(duì)列長度,超過閾值時根據(jù)RED算法對數(shù)據(jù)包進(jìn)行ECN標(biāo)記。支持ECN和RED功能的標(biāo)準(zhǔn)數(shù)據(jù)中心交換機(jī)。
?接收端網(wǎng)卡 (NP)??檢測帶有ECN標(biāo)記的數(shù)據(jù)包,生成CNP擁塞通知包并返回給發(fā)送端。支持RoCEv2的智能網(wǎng)卡
?發(fā)送端網(wǎng)卡 (RP)??根據(jù)收到的CNP包降低發(fā)送速率;在未收到CNP時逐步提升速率。支持RoCEv2的智能網(wǎng)卡

智算中心的硬件核心在于為 RoCEv2提供穩(wěn)定、高性能的無損網(wǎng)絡(luò)環(huán)境。這不僅需要網(wǎng)卡支持,更需要交換機(jī)的深度配合。CX-N系列數(shù)據(jù)中心交換機(jī)通過其超低時延、無損網(wǎng)絡(luò)技術(shù)、對大容量緩存的優(yōu)化、高級遙測功能以及對自動化運(yùn)維的支持,為DCQCN協(xié)議在AI計(jì)算、高性能計(jì)算等場景中的高效、穩(wěn)定運(yùn)行提供了堅(jiān)實(shí)的硬件基礎(chǔ)。

wKgZO2jHi6uAW31NAAPH9niMZ4o418.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    14

    文章

    8250

    瀏覽量

    94670
  • PFC
    PFC
    +關(guān)注

    關(guān)注

    49

    文章

    1061

    瀏覽量

    111190
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    18

    文章

    5645

    瀏覽量

    75003
  • 擁塞控制
    +關(guān)注

    關(guān)注

    0

    文章

    15

    瀏覽量

    8642
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    一文詳解DCQCN擁塞控制算法

    DCQCN 是一種基于速率的端到端擁塞協(xié)議,它建立在 QCN 和 DCTCP 之上。DCQCN 的大部分功能是現(xiàn)在網(wǎng)卡上(而不是交換機(jī)上,或者操作系統(tǒng)上)。
    發(fā)表于 01-23 10:48 ?1.3w次閱讀
    一文詳解<b class='flag-5'>DCQCN</b><b class='flag-5'>擁塞</b><b class='flag-5'>控制</b>算法

    適用于數(shù)據(jù)中心和AI時代的800G網(wǎng)絡(luò)

    隨著人工智能(AI)技術(shù)的迅猛發(fā)展,數(shù)據(jù)中心面臨著前所未有的計(jì)算和網(wǎng)絡(luò)壓力。從大語言模型(LLM)訓(xùn)練到生成式AI應(yīng)用,海量數(shù)據(jù)處理需求推動了網(wǎng)絡(luò)帶寬的快速增長。在此背景下,800G
    發(fā)表于 03-25 17:35

    RDMA簡介7之可靠傳輸

    。這樣的丟包重傳機(jī)制將導(dǎo)致在丟包率較高的網(wǎng)絡(luò)環(huán)境下,會反復(fù)重傳大量數(shù)據(jù)包,性能會隨著丟包率的提升急速下滑。這也就是為什么要求RoCE v2工作在二三層無損網(wǎng)絡(luò)下。 (2)流量控制
    發(fā)表于 06-13 10:01

    PCIe協(xié)議分析儀在數(shù)據(jù)中心中有何作用?

    PCIe協(xié)議分析儀在數(shù)據(jù)中心中扮演著至關(guān)重要的角色,它通過深度解析PCIe總線的物理層、鏈路層、事務(wù)層及應(yīng)用層協(xié)議,幫助運(yùn)維人員、硬件工程師和系統(tǒng)架構(gòu)師優(yōu)化性能、診斷故障、驗(yàn)證設(shè)計(jì)合規(guī)
    發(fā)表于 07-29 15:02

    易天重點(diǎn)解析監(jiān)控系統(tǒng)在數(shù)據(jù)中心機(jī)房的重要性

    ,通過在數(shù)據(jù)中心機(jī)房內(nèi)多個區(qū)域部署溫濕度傳感器,建立起溫濕度的監(jiān)控網(wǎng)絡(luò),就可以及時地發(fā)現(xiàn)局部區(qū)域過溫過濕的情況,在一些空氣污染較為嚴(yán)重的地方,還可以部署空氣清潔度監(jiān)測的設(shè)備,數(shù)據(jù)中心機(jī)房設(shè)備運(yùn)行在污染
    發(fā)表于 10-09 15:00

    數(shù)據(jù)中心中網(wǎng)絡(luò)擁塞的危害及其疏散方法的介紹

    網(wǎng)絡(luò)狀態(tài),此時用戶對網(wǎng)絡(luò)資源的需求超過了固有的容量。近些年隨著云計(jì)算、大數(shù)據(jù)、搜索技術(shù)本身要消耗大量的網(wǎng)絡(luò)帶寬,所以在數(shù)據(jù)中心
    發(fā)表于 10-17 12:33 ?6次下載

    基于數(shù)據(jù)中心網(wǎng)絡(luò)拓?fù)涓兄?b class='flag-5'>擁塞控制算法

    針對數(shù)據(jù)中心網(wǎng)絡(luò)(DCN)的鏈路擁塞問題,提出了一種拓?fù)涓兄?b class='flag-5'>擁塞控制算法(TACC)。首先,根據(jù)廣義超立方體拓?fù)涠嗑S正交和單維全連接的結(jié)構(gòu)
    發(fā)表于 12-12 13:55 ?0次下載

    基于流調(diào)度代價的數(shù)據(jù)中心網(wǎng)絡(luò)擁塞控制路由算法

    針對傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)極易發(fā)生擁塞的問題,提出了在軟件定義網(wǎng)絡(luò)(SDN)的架構(gòu)下設(shè)計(jì)基于流調(diào)度代價的擁塞
    發(fā)表于 12-14 14:35 ?0次下載

    淺談:RDMA能給數(shù)據(jù)中心帶來什么?

    在數(shù)據(jù)中心內(nèi),70%的流量為東西向流量(服務(wù)器之間的流量),這些流量一般為數(shù)據(jù)中心進(jìn)行高性能分布式并行計(jì)算時的過程數(shù)據(jù)流,通過TCP/IP網(wǎng)絡(luò)傳輸。如果服務(wù)器之間的TCP/IP 傳輸速
    的頭像 發(fā)表于 11-29 16:28 ?1903次閱讀

    數(shù)據(jù)中心以太網(wǎng)和RDMA:超大規(guī)模環(huán)境下的問題

    我們觀察到新興的人工智能、高性能計(jì)算和存儲工作負(fù)載對大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)提出了新的挑戰(zhàn)?;谌诤弦蕴W(wǎng)的RDMA協(xié)議(RoCE,RDMA ov
    的頭像 發(fā)表于 07-14 16:41 ?6485次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>以太網(wǎng)和<b class='flag-5'>RDMA</b>:超大規(guī)模環(huán)境下的問題

    數(shù)字孿生在數(shù)據(jù)中心的應(yīng)用場景

    數(shù)字孿生技術(shù)如何應(yīng)用到數(shù)據(jù)中心的運(yùn)營發(fā)展,又在數(shù)據(jù)中心的設(shè)計(jì)與發(fā)展階段起到怎樣的作用呢?本文將在數(shù)據(jù)中心的設(shè)計(jì)階段與運(yùn)維階段應(yīng)用數(shù)字孿生技術(shù)進(jìn)行解析
    的頭像 發(fā)表于 08-28 15:03 ?3010次閱讀
    數(shù)字孿生<b class='flag-5'>在數(shù)據(jù)中心</b>的應(yīng)用場景

    HPC和數(shù)據(jù)中心融合網(wǎng)絡(luò)面臨的技術(shù)挑戰(zhàn)

    隨著大型DC采用具有更高帶寬需求的高性能加速器,數(shù)據(jù)中心網(wǎng)絡(luò)通過支持遠(yuǎn)程直接內(nèi)存訪問(RDMA)、RDMA融合以太網(wǎng)(RDMA over c
    發(fā)表于 09-15 09:56 ?1734次閱讀
    HPC和<b class='flag-5'>數(shù)據(jù)中心</b>融合<b class='flag-5'>網(wǎng)絡(luò)</b>面臨的技術(shù)挑戰(zhàn)

    集中電源控制在數(shù)據(jù)中心的應(yīng)用

    集中電源控制在數(shù)據(jù)中心的應(yīng)用非常廣泛。數(shù)據(jù)中心通常需要大量的電源來支持服務(wù)器、網(wǎng)絡(luò)設(shè)備和存儲設(shè)備等關(guān)鍵基礎(chǔ)設(shè)施的運(yùn)行。集中電源
    的頭像 發(fā)表于 01-30 15:24 ?1400次閱讀
    集中電源<b class='flag-5'>控制</b>器<b class='flag-5'>在數(shù)據(jù)中心</b>的應(yīng)用

    多業(yè)務(wù)光端機(jī)在數(shù)據(jù)中心的應(yīng)用:提升網(wǎng)絡(luò)效率的關(guān)鍵

    隨著云計(jì)算、大數(shù)據(jù)等技術(shù)的迅猛發(fā)展,數(shù)據(jù)中心已成為現(xiàn)代社會不可或缺的基礎(chǔ)設(shè)施。數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò)的高效、穩(wěn)定運(yùn)行對于整個數(shù)據(jù)中心的性能至關(guān)重要。多業(yè)務(wù)光端機(jī)作為
    的頭像 發(fā)表于 02-23 14:09 ?1371次閱讀

    諾基亞擴(kuò)展與微軟Azure的數(shù)據(jù)中心網(wǎng)絡(luò)供應(yīng)協(xié)議

    的進(jìn)一步鞏固。 作為協(xié)議擴(kuò)展的重要組成部分,諾基亞將向微軟Azure提供其最新的7250 IXR-10e平臺。該平臺以其卓越的性能、靈活性和可擴(kuò)展性,在數(shù)據(jù)中心網(wǎng)絡(luò)中發(fā)揮著關(guān)鍵作用。通
    的頭像 發(fā)表于 11-22 13:53 ?1035次閱讀