電子發(fā)燒友網(wǎng)綜合報道 在當前人工智能(AI)領域,算力資源的高效利用已成為各大科技公司爭相追逐的目標。近日,阿里云提出的創(chuàng)新計算池化解決方案“Aegaeon”成功入選頂級學術會議SOSP2025。

SOSP(操作系統(tǒng)原理研討會)是由ACM SIGOPS主辦的計算機系統(tǒng)領域頂級學術會議,每年僅收錄數(shù)十篇論文,被譽為計算機操作系統(tǒng)領域的“奧斯卡”。
在過去的幾個月里,阿里云對Aegaeon系統(tǒng)進行了為期超過三個月的Beta測試,結(jié)果顯示,該系統(tǒng)在服務參數(shù)量高達720億的大型AI模型時,所需的英偉達H20 GPU數(shù)量從1192個減少至213個,削減比例高達82%。
這一顯著的減少不僅意味著阿里云可以大幅降低硬件采購成本,更是為那些依賴成千上萬張GPU進行模型服務的大型企業(yè)提供了寶貴的經(jīng)驗與借鑒。以服務數(shù)十個720億參數(shù)大模型為例,原本需要1192張GPU才能完成的任務,現(xiàn)在僅需213張即可勝任,硬件成本銳減超80%。
通過數(shù)據(jù)分析,阿里云發(fā)現(xiàn),現(xiàn)有模型市場中,少數(shù)熱門模型(例如阿里的Qwen)承載了絕大多數(shù)用戶請求,而大量不常被調(diào)用的“長尾”模型卻各自占用大量GPU資源。數(shù)據(jù)顯示,曾有17.7%的GPU算力僅用于處理1.35%的請求,資源閑置現(xiàn)象相當嚴重。
Aegaeon系統(tǒng)通過GPU資源池化的方式,打破了傳統(tǒng)“一個模型綁定一個GPU”的低效模式,實現(xiàn)了更高效的資源配置。具體而言,Aegaeon將多個GPU的計算、內(nèi)存等抽象成一個資源池,按需分配給不同的任務,避免了單個任務獨占資源導致的閑置。
Aegaeon系統(tǒng)的核心創(chuàng)新點在于Token級調(diào)度。該系統(tǒng)的多模型混合服務功能能夠在每次生成下一個token時動態(tài)決定是否切換模型,從而實現(xiàn)精細化管理。通過組件復用、顯存精細化管理以及KV緩存同步優(yōu)化等全棧技術,Aegaeon將模型切換的開銷降低了97%。
這一技術確保了token級調(diào)度的實時性,使得模型切換響應時間可支持亞秒級的快速反應。據(jù)介紹,Aegaeon系統(tǒng)支持單個GPU同時服務多達7個不同模型,相比于現(xiàn)有主流方案,其有效吞吐量提升了1.5至9倍,處理能力提高了2至2.5倍。
Aegaeon的落地將推動算力租賃行業(yè)從“按卡計費”轉(zhuǎn)向“按實際使用量計費”,企業(yè)可通過彈性調(diào)度降低閑置成本。據(jù)測算,采用該技術的云服務商可將算力租賃價格降低40%-60%,加速AI普惠化。
隨著AI技術的不斷進步,對算力的需求將持續(xù)增長。GPU資源的高效利用,是實現(xiàn)AI規(guī)?;瘧玫年P鍵。阿里云的Aegaeon方案,為AI算力效率提升提供了新的思路和解決方案,未來有望在更多云計算平臺和AI應用場景中得到推廣和應用。

SOSP(操作系統(tǒng)原理研討會)是由ACM SIGOPS主辦的計算機系統(tǒng)領域頂級學術會議,每年僅收錄數(shù)十篇論文,被譽為計算機操作系統(tǒng)領域的“奧斯卡”。
在過去的幾個月里,阿里云對Aegaeon系統(tǒng)進行了為期超過三個月的Beta測試,結(jié)果顯示,該系統(tǒng)在服務參數(shù)量高達720億的大型AI模型時,所需的英偉達H20 GPU數(shù)量從1192個減少至213個,削減比例高達82%。
這一顯著的減少不僅意味著阿里云可以大幅降低硬件采購成本,更是為那些依賴成千上萬張GPU進行模型服務的大型企業(yè)提供了寶貴的經(jīng)驗與借鑒。以服務數(shù)十個720億參數(shù)大模型為例,原本需要1192張GPU才能完成的任務,現(xiàn)在僅需213張即可勝任,硬件成本銳減超80%。
通過數(shù)據(jù)分析,阿里云發(fā)現(xiàn),現(xiàn)有模型市場中,少數(shù)熱門模型(例如阿里的Qwen)承載了絕大多數(shù)用戶請求,而大量不常被調(diào)用的“長尾”模型卻各自占用大量GPU資源。數(shù)據(jù)顯示,曾有17.7%的GPU算力僅用于處理1.35%的請求,資源閑置現(xiàn)象相當嚴重。
Aegaeon系統(tǒng)通過GPU資源池化的方式,打破了傳統(tǒng)“一個模型綁定一個GPU”的低效模式,實現(xiàn)了更高效的資源配置。具體而言,Aegaeon將多個GPU的計算、內(nèi)存等抽象成一個資源池,按需分配給不同的任務,避免了單個任務獨占資源導致的閑置。
Aegaeon系統(tǒng)的核心創(chuàng)新點在于Token級調(diào)度。該系統(tǒng)的多模型混合服務功能能夠在每次生成下一個token時動態(tài)決定是否切換模型,從而實現(xiàn)精細化管理。通過組件復用、顯存精細化管理以及KV緩存同步優(yōu)化等全棧技術,Aegaeon將模型切換的開銷降低了97%。
這一技術確保了token級調(diào)度的實時性,使得模型切換響應時間可支持亞秒級的快速反應。據(jù)介紹,Aegaeon系統(tǒng)支持單個GPU同時服務多達7個不同模型,相比于現(xiàn)有主流方案,其有效吞吐量提升了1.5至9倍,處理能力提高了2至2.5倍。
Aegaeon的落地將推動算力租賃行業(yè)從“按卡計費”轉(zhuǎn)向“按實際使用量計費”,企業(yè)可通過彈性調(diào)度降低閑置成本。據(jù)測算,采用該技術的云服務商可將算力租賃價格降低40%-60%,加速AI普惠化。
隨著AI技術的不斷進步,對算力的需求將持續(xù)增長。GPU資源的高效利用,是實現(xiàn)AI規(guī)?;瘧玫年P鍵。阿里云的Aegaeon方案,為AI算力效率提升提供了新的思路和解決方案,未來有望在更多云計算平臺和AI應用場景中得到推廣和應用。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
gpu
+關注
關注
28文章
5194瀏覽量
135419 -
阿里云
+關注
關注
3文章
1038瀏覽量
45687
發(fā)布評論請先 登錄
相關推薦
熱點推薦
算力租賃市場爆發(fā),H20遭瘋搶!小心掉坑
電子發(fā)燒友網(wǎng)報道(文/黃山明)從2022年起,美國開始持續(xù)收緊對華芯片的出口政策,而H20便是英偉達專為中國市場量身定制的AI芯片。今年以來,市場中的英偉
英偉達被傳暫停生產(chǎn)H20芯片 外交部回應
據(jù)外媒《the Information》在當?shù)貢r間的8月21日下午爆料稱,英偉達可能已經(jīng)暫停生產(chǎn)H20芯片。據(jù)稱,英偉達已正式下達指示給到供
今日看點丨傳英偉達暫停為中國市場定制H20;估值10億美元的Character.AI公司或?qū)⒊鍪?/a>
英偉達 暫停為中國市場定制 H20 據(jù)《The Information》周四援引兩位直接了解情況的人士的話報道稱,英偉達已告知其部分零部件供
發(fā)表于 08-22 10:08
?2648次閱讀
今日看點丨英偉達向臺積電訂購30萬片H20芯片;蘋果回應首次在中國關停直營店
改變了僅依賴現(xiàn)有庫存的策略。 ? ? 特朗普政府本月允許英偉達恢復向中國銷售H20圖形處理器(GPU),推翻了4月份因國家安全擔憂而實施的一項有效禁令,該禁令旨在阻止中國獲得先進的人工
發(fā)表于 07-30 10:02
?2078次閱讀
H20中國區(qū)賣爆!英偉達緊急向臺積電加訂30萬塊
,性能上相當于英偉達另一款主流GPU芯片H100的20%左右。 ? 盡管如此,在美國解禁對H20
360周鴻祎回應H20解封:近期采購全是國產(chǎn)AI芯片
據(jù)第一財經(jīng),360 集團創(chuàng)始人周鴻祎在回答 “是否會重啟采購英偉達 H20 芯片” 問題時表示,目前 360 對于芯片的采購正往國產(chǎn)芯片方向轉(zhuǎn)變,最近采購的(芯片)都是華為的產(chǎn)品。 ? 關于原因,他
發(fā)表于 07-24 09:20
?5081次閱讀
英偉達獲美批準恢復H20在華銷售,同步推出全新兼容GPU
7月15日上午,央廣財經(jīng)記者從英偉達方面確認,英偉達已經(jīng)獲得美國批準,將恢復 H20 在中國的銷售,并推出面向中國市場的全新且完全兼容的
中方回應英偉達將對華銷售H20芯片 反對將科技和經(jīng)貿(mào)問題政治化
一般不對企業(yè)的行為作出具體的評論。我要指出的是,中方反對將科技和經(jīng)貿(mào)問題政治化、工具化、武器化,對中國進行惡意封鎖打壓的立場是一貫的、明確的。這種做法擾亂全球產(chǎn)供鏈的穩(wěn)定,也不符合任何一方的利益。
英偉達黃仁勛:將向中國市場銷售H20芯片 中國市場至關重要
,英偉達CEO黃仁勛在北京訪問期間發(fā)表聲明稱,將恢復在中國銷售其H20 GPU芯片,并根據(jù)美國出口限制為中國市場推出一款新的GPU。
今日看點丨英偉達將為中國市場推出新AI芯片 售價大幅低于H20;中科曙光與海光信息宣布戰(zhàn)略重組
1. 英偉達將為中國市場推出新AI 芯片 售價大幅低于H20 ? 近日,外媒報道稱,美國芯片巨頭英偉達據(jù)報將為中國市場推出一款基于Black
發(fā)表于 05-26 11:06
?1646次閱讀
美國限制英偉達向華出售H20芯片
出口H20芯片,以及任何其他性能達到H20內(nèi)存帶寬、互連帶寬或其組合的芯片,都必須獲得出口許可。 公告披露,美國政府稱,這旨在解決相關產(chǎn)品可能被用于或被轉(zhuǎn)用于中國超級計算機的風險。4月14日,美國政府通知
特朗普要叫停英偉達對華特供版 英偉達H20出口限制 或損失55億美元
據(jù)外媒報道,英偉達公司發(fā)布了一項通知稱,美國政府于9日告知英偉達公司;特供版的H20芯片出口到中國需要許可證,緊接著在14日又告知
今日看點丨英偉達H20出口至中國需“無限期”申請許可證;特斯拉即將實現(xiàn)純AI自動駕駛
而設計的產(chǎn)品線。英偉達周二在監(jiān)管文件中表示,美國政府已于周一通知公司,H20芯片未來在出口至中國時需要“無限期”申請許可證。政府方面表示,新規(guī)旨在應對芯片“可能被用于或轉(zhuǎn)用于中國超級計算
發(fā)表于 04-16 11:18
?815次閱讀
阿里云計算池化方案:英偉達H20 GPU用量削減82%
評論