邁入人工智能 (AI) 時代,系統(tǒng)性能越來越多地受到功耗、散熱、內(nèi)存帶寬和數(shù)據(jù)傳輸?shù)榷嘀匾蛩刂萍s,而且影響所有計算場景,從千兆瓦級超大規(guī)模數(shù)據(jù)中心到毫瓦級邊緣設(shè)備,無一例外。
正如Futurum 的報告《Arm 處于 AI 和數(shù)據(jù)中心變革的中心》中所述:“AI 并非單一工作負載,也不存在單一理想化的基礎(chǔ)設(shè)施。相反,AI 是一系列工作負載的集合,需要一套連貫的策略,兼顧成本效益與性能,滿足多樣化需求?!?/p>
代理式 AI 的興起,進一步催生了上述需求。此類模型不再僅對單條提示詞做出響應(yīng),而是以多個自主智能體的協(xié)作運行,完成規(guī)劃、推理并執(zhí)行各類任務(wù)。與孤立的推理調(diào)用不同,代理式 AI 系統(tǒng)會生成持續(xù)的工作流,涉及內(nèi)存檢索、工具調(diào)用、跨模型與跨服務(wù)協(xié)同調(diào)度,對算力、內(nèi)存帶寬和系統(tǒng)編排提出源源不斷的要求。
在這一趨勢的影響下,計算基礎(chǔ)設(shè)施的設(shè)計思路正在發(fā)生根本性轉(zhuǎn)變。AI 系統(tǒng)不再是各種芯片的簡單堆砌,而是形成一體化的整體,CPU、加速器、內(nèi)存與網(wǎng)絡(luò)組件全都協(xié)同運行。由此,系統(tǒng)級智能如今已成為決定芯片性能、能效與可擴展性的重中之重。
追求可持續(xù)的系統(tǒng)級表現(xiàn),而非不計成本的極致性能
在現(xiàn)代 AI 數(shù)據(jù)中心的建設(shè)中,客戶不再單純選購“最強 CPU”或“最快加速器”,而是著重于優(yōu)化機架能效,重點關(guān)注每瓦性能,尤其看重在持續(xù)、真實工作負載下的表現(xiàn),而非短時峰值跑分成績。如今單個機架的設(shè)計功耗可達 50kW 至 300kW 以上,因此不得不從整體層面進行權(quán)衡,單芯片“極限”性能指標的重要性因此下降。
系統(tǒng)平衡變得更為關(guān)鍵:
在各個計算組件之間高效傳輸數(shù)據(jù);
在機架層面實現(xiàn)每瓦功耗產(chǎn)生更多有效算力;
讓 CPU、GPU、NPU、內(nèi)存池與互聯(lián)架構(gòu)協(xié)同一致、整體運行。
Futurum 報告也指出,行業(yè)關(guān)注點已從:“能堆多少原始算力”轉(zhuǎn)向“如何在系統(tǒng)層面,針對多樣化的需求與環(huán)境,更加智能地編排算力?”
這一轉(zhuǎn)變重構(gòu)了芯片的定位。加速器決定了原始算力吞吐能力,而系統(tǒng)編排(涵蓋任務(wù)調(diào)度、內(nèi)存管理、安全管控與數(shù)據(jù)傳輸)則決定了這種吞吐能否在大規(guī)模下持續(xù)。若缺少高效的系統(tǒng)編排,從機架層面,受制于內(nèi)存、網(wǎng)絡(luò)或控制面瓶頸,即便最強大的加速器也可能陷入閑置狀態(tài),無法充分發(fā)揮性能。
在代理式 AI 工作負載場景中,這種現(xiàn)象會愈發(fā)明顯。數(shù)百萬軟件智能體并發(fā)運行,查詢數(shù)據(jù)、調(diào)用工具、生成輸出、跨服務(wù)協(xié)同,算力需求從“突發(fā)式”供給,轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)性持續(xù)供給。為此,基礎(chǔ)設(shè)施必須能夠支撐持續(xù)不間斷的系統(tǒng)編排與數(shù)據(jù)傳輸,而非僅滿足模型的瞬時峰值吞吐需求。
CPU 在 AI 時代的重要性愈發(fā)凸顯
隨著 AI 模型、工作負載與部署環(huán)境的多樣化發(fā)展,CPU 正越來越多地充當 AI 的頭節(jié)點,即系統(tǒng)的控制中樞,負責對整個系統(tǒng)進行協(xié)調(diào)與編排。
在大規(guī)模 AI 平臺中,CPU 主要負責:
在各種異構(gòu)加速器之間分派與調(diào)度任務(wù);
為各類工作負載管理內(nèi)存一致性、數(shù)據(jù)本地化與主機內(nèi)存卸載,例如 KV 緩存和向量數(shù)據(jù)庫;
處理純矩陣運算之外的數(shù)據(jù)預處理與后處理任務(wù);
在整個系統(tǒng)范圍內(nèi)執(zhí)行控制平面操作、安全防護與資源隔離。
簡而言之,加速器負責執(zhí)行驅(qū)動 AI 模型的運算,而 CPU 則是將算力轉(zhuǎn)化為可靠、可擴展、具備實際應(yīng)用價值的核心。
CPU 的重要性已得到行業(yè)頭部企業(yè)的驗證和認可。在彭博社的一次采訪中,NVIDIA 創(chuàng)始人兼 CEO 黃仁勛證實,全新 Vera Rubin 平臺所搭載的基于 Arm 架構(gòu)的 Vera CPU 將作為獨立產(chǎn)品推出。此舉清楚表明,CPU 在 AI 系統(tǒng)設(shè)計中的重要性正與日俱增。
此外,隨著 AI 基礎(chǔ)設(shè)施日益多元化,CPU 架構(gòu)憑借靈活性、高能效和系統(tǒng)協(xié)同能力,價值和重要性將大幅提升。Arm 的優(yōu)勢也由此顯現(xiàn)。Futurum 的研究報告明確指出:“GPU 和 TPU 等專用加速器通常會與基于 Arm 架構(gòu)的 CPU 搭配使用,以承擔通用控制與數(shù)據(jù)管理任務(wù),同時有效避免高昂的成本與功耗開銷?!?/p>
Arm 引領(lǐng)系統(tǒng)級基礎(chǔ)設(shè)施的發(fā)展
Arm 計算架構(gòu)的優(yōu)勢體現(xiàn)在性能、能效、可擴展性與龐大的生態(tài)系統(tǒng)上,能夠幫助系統(tǒng)架構(gòu)師在日新月異的 AI 領(lǐng)域更好地管控風險,而且精準匹配新一代機架級 AI 系統(tǒng)的需求。
以上優(yōu)勢已在頭部超大規(guī)模云服務(wù)提供商的實踐中得到驗證:
亞馬遜云科技將基于 Arm 架構(gòu)的 Graviton CPU 與 Nitro DPU 及 Trainium 加速器相結(jié)合,優(yōu)化機架級能效;
Google 基于 TPU 的系統(tǒng)正越來越多地搭配集成 Arm CPU 核心的 Google Axion 處理器,承擔編排與控制任務(wù);
NVIDIA 的 Grace、Grace-Hopper 和即將推出的 Vera 平臺,均將 GPU 與基于 Arm 架構(gòu)的 CPU,以及 DPU 配對,打造高度集成化的 AI 系統(tǒng)。
Arm 計算平臺正作為系統(tǒng)基石,將加速器、內(nèi)存與網(wǎng)絡(luò)組件整合到一起,構(gòu)成協(xié)同統(tǒng)一、高能效的整體系統(tǒng)。
AI 正邁向以推理為先的發(fā)展階段
盡管模型訓練常常占據(jù)新聞頭條,但推理才是 AI 實現(xiàn)規(guī)?;暮诵?。代理式 AI 的興起進一步提升了推理的重要性,因為智能體需要持續(xù)運行,執(zhí)行一連串推理操作,而非單次調(diào)用模型。
從眾多路線圖來看,未來十年內(nèi)推理工作負載將超越訓練工作負載,而推理對系統(tǒng)的要求,與訓練截然不同,主要體現(xiàn)在:
需要更低的延遲;
對內(nèi)存帶寬更為敏感;
需要持續(xù)不間斷運行;
功耗與散熱限制嚴格。
上述要求不僅針對數(shù)據(jù)中心,同樣適用于邊緣側(cè)場景,包括我們?nèi)粘I钪械?a href="http://m.makelele.cn/soft/data/39-96/" target="_blank">消費電子設(shè)備與物聯(lián)網(wǎng)系統(tǒng)。與云端一樣,邊緣計算同樣遵循相同的系統(tǒng)級設(shè)計原則:
性能由加速能力與系統(tǒng)間的數(shù)據(jù)傳輸效率共同決定;
安全防護依賴系統(tǒng)級協(xié)同,實現(xiàn)跨工作負載與內(nèi)存間的全域防護;
集成速度直接影響產(chǎn)品上市時間。
在邊緣 AI 系統(tǒng)中,如果加速器與內(nèi)存、互聯(lián)沒有緊密耦合,系統(tǒng)就會迅速陷入帶寬、功耗及軟件復雜度等多重瓶頸。只有將 CPU 加速、內(nèi)存與互聯(lián)進行深度集成,才能提供更穩(wěn)定的性能、更高效的擴展能力,也更利于開發(fā)者使用。
Futurum 的報告指出:“以往需要依托云端完成的任務(wù),如今可借助 Arm 高能效核心與集成的 AI 引擎在本地實現(xiàn)?!?/p>
規(guī)?;到y(tǒng)設(shè)計
隨著系統(tǒng)復雜度不斷攀升,集成與驗證環(huán)節(jié)(而非晶體管設(shè)計)正成為成本與風險的主要來源。因此,行業(yè)開始轉(zhuǎn)向采用預集成的計算子系統(tǒng)和標準化系統(tǒng)接口。
在此行業(yè)趨勢下,Arm 計算子系統(tǒng) (Compute Subsystems, CSS)應(yīng)運而生,市場需求持續(xù)增長。CSS 提供經(jīng)過預先驗證的子系統(tǒng),為定制化系統(tǒng)設(shè)計提供了明確路徑,在降低集成風險的同時,助力合作伙伴實現(xiàn)產(chǎn)品差異化。CSS 不再僅提供獨立的 IP 模塊,而是提供預先驗證的系統(tǒng)設(shè)計方案,涵蓋 CPU、互聯(lián)、一致性協(xié)議與內(nèi)存管理機制,實現(xiàn)各組件原生協(xié)同。
此外,Arm 的系統(tǒng) IP 產(chǎn)品組合涵蓋互聯(lián)控制器、內(nèi)存控制器與一致性互聯(lián)架構(gòu),能夠幫助合作伙伴以更低風險、更快速度,設(shè)計出全方位面向 AI 優(yōu)化的系統(tǒng)。在 AI 工作負載同時對帶寬、延遲與功耗提出嚴苛要求的背景下,此等系統(tǒng)級基礎(chǔ)平臺的重要性愈發(fā)凸顯。
核心價值與意義
隨著 AI 從孤立的模型推理轉(zhuǎn)向由智能體驅(qū)動的系統(tǒng),計算基礎(chǔ)設(shè)施面臨的核心挑戰(zhàn)變?yōu)閰f(xié)同調(diào)度,要確保各類處理器、內(nèi)存系統(tǒng)與網(wǎng)絡(luò)能夠作為協(xié)調(diào)統(tǒng)一的整體運行。
AI 領(lǐng)域的核心競爭力將聚焦于系統(tǒng)層面的四大能力:
在功耗約束下構(gòu)建高能效系統(tǒng);
整合異構(gòu)計算資源,避免架構(gòu)割裂;
以盡可能低的能耗完成數(shù)據(jù)傳輸;
將安全與性能內(nèi)化為系統(tǒng)原生屬性,而非附加功能。
Futurum 的報告總結(jié)道:“行業(yè)格局的重塑,不僅取決于誰能制造出性能最強的芯片,更取決于誰能打造出覆蓋全場景、高度集成化且高能效的系統(tǒng)?!?/p>
憑借系統(tǒng)層面的定制化、高能效與多樣化選擇,Arm 架構(gòu)正支撐越來越多高可擴展性 AI 計算環(huán)境,覆蓋超大規(guī)模數(shù)據(jù)中心至邊緣設(shè)備全場景。
AI 的未來,并非單純追求芯片算力提升,而是依托 Arm 架構(gòu)打造更智能、更高效、更具擴展性的整體系統(tǒng)。
-
ARM
+關(guān)注
關(guān)注
135文章
9578瀏覽量
393121 -
AI
+關(guān)注
關(guān)注
91文章
40642瀏覽量
302298 -
算力
+關(guān)注
關(guān)注
2文章
1612瀏覽量
16816
原文標題:從云到邊緣:系統(tǒng)級智能為何是 AI 發(fā)展的基石?
文章出處:【微信號:Arm社區(qū),微信公眾號:Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
嵌入式AI開發(fā)必看:杜絕幻覺,才是工業(yè)級IDE的核心底氣
論馬斯克的預言:AI使人類邊緣化
邊緣AI算力臨界點:深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價值
【「芯片設(shè)計基石——EDA產(chǎn)業(yè)全景與未來展望」閱讀體驗】--中國EDA的發(fā)展
【「芯片設(shè)計基石——EDA產(chǎn)業(yè)全景與未來展望」閱讀體驗】+ 芯片“卡脖子”引發(fā)對EDA的重視
Magna AI加入NVIDIA Inception計劃,推動生產(chǎn)級人工智能規(guī)模化發(fā)展
車載通信設(shè)備EMC整改:推動汽車電子發(fā)展的基石
AI智能體管理系統(tǒng)構(gòu)建企業(yè)級應(yīng)用的管理框架
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+具身智能芯片
AI 芯片浪潮下,職場晉升新契機?
信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡(luò)智能診斷邁向 “自愈”時代
光纖為何是AI就緒型數(shù)據(jù)中心的基石?
邊緣AI的優(yōu)勢和技術(shù)基石
系統(tǒng)級智能為何是AI發(fā)展的基石
評論