3月31日,ODCC春季全會(huì)網(wǎng)絡(luò)工作組會(huì)議在浙江舟山圓滿落幕。為應(yīng)對(duì)下一代AI網(wǎng)絡(luò)技術(shù)的演進(jìn)需求,騰訊牽頭正式成立IO-NET項(xiàng)目工作組。該工作組將圍繞面向Agent的新型互聯(lián)體系,實(shí)現(xiàn)訓(xùn)練、推理、業(yè)務(wù)執(zhí)行一體化展開深入探討,攜手產(chǎn)業(yè)鏈共建統(tǒng)一生態(tài)規(guī)范,推動(dòng)AI網(wǎng)絡(luò)持續(xù)演進(jìn)。
作為IO-NET項(xiàng)目的重要成員,奇異摩爾依托工作組平臺(tái),牽頭組織基于IO-NET的IOD芯粒工作組,聯(lián)合產(chǎn)業(yè)鏈伙伴共同探索通用IOD的實(shí)現(xiàn)路徑,為構(gòu)建高效、標(biāo)準(zhǔn)化的下一代AI互聯(lián)生態(tài)提供核心技術(shù)支撐。
奇異摩爾首席架構(gòu)師朱琛發(fā)表主題演講《基于通用IOD的XPU Scale-up網(wǎng)絡(luò)互聯(lián)實(shí)現(xiàn)路徑》。演講重點(diǎn)分析了Agent時(shí)代背景下,內(nèi)存瓶頸正驅(qū)動(dòng)集群架構(gòu)向資源解耦方向演進(jìn)。在這一演進(jìn)過程中,通用IOD的應(yīng)用場(chǎng)景從XPU-to-XPU拓展至XPU-to-CPU及XPU-to-Memory Pool。
朱琛指出,傳統(tǒng)RDMA在XPU-to-CPU及XPU-to-Memory Pool場(chǎng)景下顯得過于繁重,亟需一種更輕量化的DMA引擎。圍繞這一需求,他從分層視角出發(fā),系統(tǒng)探討了從D2D,功能層以及Scale-up接口層通用IOD的實(shí)現(xiàn)路徑。他進(jìn)一步闡述了奇異摩爾作為騰訊牽頭IO-NET項(xiàng)目組子項(xiàng)目的定位與未來規(guī)劃,研究目標(biāo)的及相關(guān)技術(shù)規(guī)范的落地展望。
Agent時(shí)代所帶來的內(nèi)存瓶頸
在大模型推理中,內(nèi)存消耗大戶遠(yuǎn)不止模型參數(shù),更棘手的是KV Cache、長(zhǎng)上下文、會(huì)話狀態(tài)、多輪Agent記憶以及Prompt Cache等動(dòng)態(tài)數(shù)據(jù)。KV Cache存儲(chǔ)注意力機(jī)制中的鍵值向量,避免每生成一個(gè)token都重新計(jì)算,其大小隨序列長(zhǎng)度和批量大小線性增長(zhǎng),在大規(guī)模場(chǎng)景下甚至?xí)^模型權(quán)重本身。
為何需要統(tǒng)一內(nèi)存池
在大模型訓(xùn)練與推理中,Batch Size是決定性能與效果的關(guān)鍵超參數(shù)。它不僅影響吞吐速度,更直接關(guān)系到模型的收斂行為與泛化能力。
隨著Agent時(shí)代的到來,長(zhǎng)序列已成為推理場(chǎng)景的主流趨勢(shì),顯存需求呈指數(shù)級(jí)攀升。在這一背景下,Batch Size的選擇正面臨兩難困境:
過大:過量占用GPU顯存,極易觸發(fā)顯存溢出(OOM),同時(shí)推升Token生成延遲,影響服務(wù)穩(wěn)定性;
過?。簾o法充分利用GPU計(jì)算資源,導(dǎo)致計(jì)算單元因“喂不飽”而持續(xù)空轉(zhuǎn),算力利用率大幅下降。
此時(shí),統(tǒng)一內(nèi)存池的重要性便凸顯出來。通過構(gòu)建全局統(tǒng)一、彈性伸縮的內(nèi)存池,能夠打破靜態(tài)顯存分配的僵化邊界,在Batch Size動(dòng)態(tài)變化時(shí)實(shí)現(xiàn)顯存資源的靈活復(fù)用與高效調(diào)度——既能支撐更大Batch Size以提升吞吐,又能在高并發(fā)長(zhǎng)序列場(chǎng)景下避免顯存瓶頸,真正實(shí)現(xiàn)算力與內(nèi)存的協(xié)同最優(yōu)。
從CPU-GPU到全域統(tǒng)一編址

(圖:奇異摩爾@ODCC春季大會(huì))
如今,CPU與GPU不再是各自持有獨(dú)立內(nèi)存的異構(gòu)設(shè)備,而是能夠平等訪問統(tǒng)一內(nèi)存空間的計(jì)算單元,徹底消除了傳統(tǒng)架構(gòu)中數(shù)據(jù)在CPU內(nèi)存與GPU顯存之間反復(fù)拷貝的瓶頸。以英偉達(dá)為例,其通過NVLink-C2C互聯(lián)構(gòu)建了GPU與CPU對(duì)共享內(nèi)存的無差別、低延遲訪問,CPU和GPU可共享同一進(jìn)程頁(yè)表,硬件維護(hù)緩存一致性,GPU可直接訪問CPU端LPDDR5X內(nèi)存(總帶寬900 GB/s),CPU也能以緩存行粒度訪問GPU端內(nèi)存。
華為的UB-Mesh在架構(gòu)上也采用了類似思路,通過統(tǒng)一總線協(xié)議連接GPU、內(nèi)存池、SSD、網(wǎng)卡等異構(gòu)資源,構(gòu)建可擴(kuò)展至百萬(wàn)級(jí)芯片的大規(guī)模AI系統(tǒng)。
面向下一代AI推理,統(tǒng)一編址的理念正從“CPU-GPU對(duì)”向更廣闊的異構(gòu)計(jì)算生態(tài)延伸——XPU與內(nèi)存池之間的協(xié)同、異構(gòu)算力的統(tǒng)一調(diào)度、異構(gòu)芯片間的互聯(lián)能力,已成為下一代AI推理系統(tǒng)亟待突破的核心課題。
從XPU間互聯(lián)到內(nèi)存池互聯(lián)
以IOD 芯粒讓計(jì)算和互聯(lián)解耦的技術(shù)路徑已經(jīng)逐步形成產(chǎn)業(yè)共識(shí)。正如Meta的最新的MTIA系列都基于上一代優(yōu)化,采用模塊化小芯片(芯粒,將大芯片拆分為多個(gè)獨(dú)立小模塊拼接,降低研發(fā)難度、提升復(fù)用性)設(shè)計(jì),融入最新的 AI 工作負(fù)載洞察與硬件技術(shù),并以更短的周期完成部署。這種更緊湊的迭代閉環(huán),讓硬件能更好地適配不斷演變的模型架構(gòu),靈活支持未來大模型所需硬件技術(shù)的落地應(yīng)用。

(圖:奇異摩爾@ODCC春季大會(huì))
Kiwi IOD作為一款相對(duì)通用、支持內(nèi)存語(yǔ)義、具備RDMA引擎且靈活可擴(kuò)展的IO芯粒,除了實(shí)現(xiàn)XPU間互聯(lián)外,同樣可為XPU-Memory Pool互聯(lián)提供了理想技術(shù)載體。
原生支持內(nèi)存語(yǔ)義
Kiwi IOD從底層支持內(nèi)存語(yǔ)義(Memory Semantics),使得XPU訪問遠(yuǎn)端內(nèi)存池時(shí),無需借助復(fù)雜的驅(qū)動(dòng)或中間層,即可通過Load/Store指令直接讀寫池化內(nèi)存。這種設(shè)計(jì)讓遠(yuǎn)端內(nèi)存訪問的編程體驗(yàn)與訪問本地內(nèi)存無異,大幅降低軟件開發(fā)復(fù)雜度。
輕量化協(xié)議封裝
針對(duì)內(nèi)存池互聯(lián)場(chǎng)景,Kiwi IOD復(fù)用Scale-up協(xié)議,可優(yōu)化報(bào)文封裝開銷,通過減輕IOD DMA操作(Read/Write/Atomic)的軟件參與度,實(shí)現(xiàn)數(shù)據(jù)通路的硬件直通。
通用IOD的XPU
Scale-up網(wǎng)絡(luò)互聯(lián)實(shí)現(xiàn)路徑

(圖:奇異摩爾@ODCC春季大會(huì))
從NoC接口來看,計(jì)算芯粒的NoC與IOD必須在協(xié)議層實(shí)現(xiàn)接口對(duì)齊。在協(xié)議層適配方面,UCIe協(xié)議層原生支持PCIe Flit模式與CXL Flit模式,計(jì)算芯粒與IOD的協(xié)議適配層需采用一致的映射方式以實(shí)現(xiàn)互通。在統(tǒng)一的IOD協(xié)議層接口下,IOD能夠?yàn)镹oC提供差異化支持:在XPU-to-XPU場(chǎng)景中,支持XPU個(gè)性化的原子操作;在XPU-to-Memory Pool場(chǎng)景中,支持XPU個(gè)性化的近存計(jì)算操作。
從功能層來看,以XPU-to-Memory Pool場(chǎng)景為例,內(nèi)存池對(duì)XPU的內(nèi)存分配策略(如靜態(tài)分配、動(dòng)態(tài)按需分配)以及池化內(nèi)存到XPU地址空間的映射方式與地址翻譯機(jī)制,可選擇通過IOD實(shí)現(xiàn)。
從Scale-up接口來看,IOD本身支持多元化的Scale-up接口,其靈活性使其能夠持續(xù)適應(yīng)Scale-up生態(tài)的演進(jìn)需求。

(圖:IO-NET內(nèi)存池項(xiàng)目計(jì)劃)
展望未來,奇異摩爾將持續(xù)依托騰訊IO-NET工作組的整體規(guī)劃,牽頭打造面向IO-NET的芯粒工作組,攜手產(chǎn)業(yè)鏈上下游,共同構(gòu)建適用于XPU-to-XPU、XPU-to-CPU及Memory Pool等場(chǎng)景的通用IOD技術(shù)規(guī)范,并推動(dòng)專用IOD硬件的定制化落地。以此為AI Agent時(shí)代背景下的推理瓶頸提供互聯(lián)領(lǐng)域的關(guān)鍵支撐,加速下一代異構(gòu)計(jì)算互聯(lián)生態(tài)的標(biāo)準(zhǔn)化與規(guī)?;M(jìn)程。
-
內(nèi)存
+關(guān)注
關(guān)注
9文章
3222瀏覽量
76450 -
Agent
+關(guān)注
關(guān)注
0文章
208瀏覽量
29094 -
奇異摩爾
+關(guān)注
關(guān)注
0文章
82瀏覽量
4063
原文標(biāo)題:生態(tài)共建 | 奇異摩爾攜手產(chǎn)業(yè)共建IO-NET芯粒工作組,引領(lǐng)下一代AI網(wǎng)絡(luò)演進(jìn)
文章出處:【微信號(hào):奇異摩爾,微信公眾號(hào):奇異摩爾】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
比亞迪正式加入國(guó)際汽車工作組
芯粒設(shè)計(jì)與異質(zhì)集成封裝方法介紹
奇異摩爾參編人工智能加速器互聯(lián)芯粒技術(shù)要求團(tuán)體標(biāo)準(zhǔn)發(fā)布
泰芯半導(dǎo)體攜手生態(tài)伙伴助力AI硬件產(chǎn)業(yè)規(guī)?;涞?/a>
華為受邀出席5GDNA聯(lián)盟新通話工作組產(chǎn)業(yè)發(fā)展專題會(huì)議
智芯公司出席IEEE P1901.3雙模通信國(guó)際標(biāo)準(zhǔn)工作組第九次會(huì)議
奇異摩爾助力中國(guó)移動(dòng)GSE 2.5版本協(xié)議標(biāo)準(zhǔn)發(fā)布
奇異摩爾Networking for AI生態(tài)沙龍成功舉辦
借助Arm芯粒技術(shù)構(gòu)建計(jì)算未來
奇異摩爾助力OISA全向智感互聯(lián)IO芯粒技術(shù)白皮書發(fā)布
芯粒技術(shù)的專利保護(hù)挑戰(zhàn)與應(yīng)對(duì)策略
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+半導(dǎo)體芯片產(chǎn)業(yè)的前沿技術(shù)
奇異摩爾攜手中國(guó)移動(dòng)發(fā)布OISA 2.0協(xié)議
奇異摩爾攜手產(chǎn)業(yè)伙伴共建IO-NET芯粒工作組
評(píng)論