91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

中科曙光scaleX萬卡超集群重塑超大規(guī)模算力基礎(chǔ)設(shè)施

中科曙光 ? 來源:中科曙光 ? 2026-01-30 15:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在“人工智能+”行動深入推進的當(dāng)下,算力基礎(chǔ)設(shè)施已成為國家戰(zhàn)略競爭力的核心,而超大規(guī)模集群的運維管控難題卻日益凸顯。中科曙光scaleX萬卡超集群打造的智能管理體系,正以“能管住-管得穩(wěn)-用得好”的進階邏輯,重塑超大規(guī)模算力基礎(chǔ)設(shè)施的運行范式,讓萬級節(jié)點協(xié)同從行業(yè)痛點變?yōu)楦咝СB(tài)。

集群管理的基石,始于數(shù)字孿生構(gòu)建的“鏡像世界”。曙光將物理集群的業(yè)務(wù)、節(jié)點、網(wǎng)絡(luò)、供配電等全鏈路映射至數(shù)字空間,實現(xiàn)全域透明可視與精準管控。在此基礎(chǔ)上,智能運維助手以“實時分析-智能診斷-根因定位-故障恢復(fù)”四步流程,為運維人員提供一體化視圖,讓集群狀態(tài)“看得見、摸得著”。

三層閉環(huán)架構(gòu)的智能化運維平臺,推動集群從“可觀測”升級為“可決策、可執(zhí)行”。

在數(shù)據(jù)可觀測層,全量采集指標與日志等數(shù)據(jù),通過CMDB清晰呈現(xiàn)資產(chǎn)拓撲;在知識與算法層,結(jié)構(gòu)化沉淀專家經(jīng)驗,以“規(guī)則+數(shù)據(jù)”雙驅(qū)動實現(xiàn)精準異常檢測;在場景自動化層,針對常見和關(guān)鍵場景,定義標準化流程,通過自動化工具實現(xiàn)故障自愈與復(fù)盤。

這套體系最終將集群長期可用性鎖定在99.99%,意味著30天內(nèi)不可用時間不足4分鐘,將“故障”變成系統(tǒng)自動化處理的日常狀態(tài)。

穩(wěn)定性是底線,算力效率是核心競爭力。scaleX萬卡超集群已實現(xiàn)單集群支撐15000+節(jié)點、服務(wù)12萬+用戶,每秒并發(fā)調(diào)度萬級任務(wù),背后離不開三大關(guān)鍵調(diào)度能力。數(shù)據(jù)親和性算法優(yōu)先“讓任務(wù)找數(shù)據(jù)”,規(guī)避冗余遷移;智能調(diào)度引擎動態(tài)匹配任務(wù)與資源,平衡優(yōu)先級、公平性與成本;多元融合調(diào)度則兼容HPC、AI、云原生任務(wù),兼顧吞吐與隔離,配合存算傳緊耦合優(yōu)化,使AI加速卡利用率提升55%。

值得關(guān)注的是,這套管理體系與硬件創(chuàng)新深度協(xié)同。依托單機柜640卡的超高密度設(shè)計、浸沒相變液冷技術(shù)及自主研發(fā)的高速網(wǎng)絡(luò)scaleFabric,管理系統(tǒng)可充分釋放5EFlops總算力,同時將PUE控制在1.04,實現(xiàn)高效能與低能耗的統(tǒng)一。作為“AI計算開放架構(gòu)”成果,scaleX萬卡超集群兼容多品牌加速卡,適配400+主流大模型,覆蓋大模型訓(xùn)練、金融風(fēng)控等多元場景。

曙光用技術(shù)實踐證明,超大規(guī)模智算集群的終極目標,不是節(jié)點數(shù)量的堆砌,而是構(gòu)建自感知、自診斷、自修復(fù)、自優(yōu)化的智能算力基礎(chǔ)設(shè)施,期待與更多產(chǎn)業(yè)伙伴攜手,突破算力瓶頸,共建中國AI計算開放的新生態(tài)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 集群
    +關(guān)注

    關(guān)注

    0

    文章

    142

    瀏覽量

    17659
  • 中科曙光
    +關(guān)注

    關(guān)注

    5

    文章

    495

    瀏覽量

    18908
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1527

    瀏覽量

    16737

原文標題:特寫|萬卡集群:管得好,才能算得強

文章出處:【微信號:sugoncn,微信公眾號:中科曙光】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    中科曙光3套scaleX集群落地國家互聯(lián)網(wǎng)鄭州核心節(jié)點

    2月5日,由中科曙光提供的3套集群系統(tǒng)在國家
    的頭像 發(fā)表于 02-09 10:32 ?458次閱讀

    中科曙光scaleX集群背后的持續(xù)創(chuàng)新

    集群的發(fā)展浪潮正以超乎想象的速度襲來,未來五年,十萬級的集群將成為標配。但一個核心挑戰(zhàn)
    的頭像 發(fā)表于 01-19 14:49 ?591次閱讀

    中科曙光榮膺國際設(shè)計大賽產(chǎn)品至尊獎

    近日,由中央廣播電視總臺聯(lián)合廣東省政府等舉辦的“越來越好”國際設(shè)計大賽頒獎典禮在廣州落幕,中科曙光scaleX
    的頭像 發(fā)表于 01-14 17:15 ?611次閱讀

    中科曙光scaleX集群亮相中國制造“十四五”成就展

    12月29日,由中國國家博物館與工業(yè)和信息化部新聞宣傳中心聯(lián)合主辦的“筑基強國路—中國制造‘十四五’成就展”正式開幕。經(jīng)專家評審委員會嚴格遴選,中科曙光scaleX
    的頭像 發(fā)表于 12-30 15:49 ?518次閱讀

    燧原科技榮獲2025年超大規(guī)模集群創(chuàng)新應(yīng)用實踐成果

    近日,中國信息通信研究院(以下簡稱“中國信通院”)成功召開2025AI云產(chǎn)業(yè)發(fā)展大會。中國通信標準化協(xié)會理事長聞庫、中國信通院副院長王志勤出席會議并致辭。中國工程院院士鄭緯民作主旨報告。會議期間,發(fā)布了超大規(guī)模集群創(chuàng)新應(yīng)用實
    的頭像 發(fā)表于 12-29 09:59 ?364次閱讀
    燧原科技榮獲2025年<b class='flag-5'>超大規(guī)模</b>智<b class='flag-5'>算</b><b class='flag-5'>集群</b>創(chuàng)新應(yīng)用實踐成果

    總算5EFLOPS!可擴展至10,國產(chǎn)集群部分性能超越NVL576

    中國在高性能計算領(lǐng)域的又一次重大突破。 ? 中科曙光高級副總裁李斌表示,面對人工智能基礎(chǔ)設(shè)施對性能、效率、可靠性、可擴展性等方面的極致需求,ScaleX
    的頭像 發(fā)表于 12-24 09:24 ?4659次閱讀

    部分能力超越2027年NVL576,中科曙光發(fā)布scaleX集群

    系統(tǒng)首次以真機形式亮相。 “scaleX集群,是曙光發(fā)揮大型計算機系統(tǒng)研制經(jīng)驗優(yōu)勢,面向萬
    發(fā)表于 12-18 18:30 ?1094次閱讀
    部分能力超越2027年NVL576,<b class='flag-5'>中科</b><b class='flag-5'>曙光</b>發(fā)布<b class='flag-5'>scaleX</b><b class='flag-5'>萬</b><b class='flag-5'>卡</b><b class='flag-5'>超</b><b class='flag-5'>集群</b>

    中科曙光AI集群系統(tǒng)和scaleX640節(jié)點等產(chǎn)品全面適配DeepSeek V3.2

    層實現(xiàn)“跨層協(xié)同”,曙光AI集群系統(tǒng)、scaleX640節(jié)點等產(chǎn)品0day完成對DeepSeek新版本的深度適配與調(diào)優(yōu),支持各行各業(yè)客戶
    的頭像 發(fā)表于 12-05 14:32 ?717次閱讀

    中科曙光scaleX640節(jié)點亮相2025世界計算大會

    11月20日,在以“計算物,湘約未來——智驅(qū)動新質(zhì)生產(chǎn)”為主題的長沙世界計算大會上,中科曙光sc
    的頭像 發(fā)表于 11-21 17:30 ?1041次閱讀

    640節(jié)點問世:國產(chǎn)實現(xiàn)關(guān)鍵一躍

    單機柜級640節(jié)點ScaleX640,為如火如荼的競爭注入了新的變量。 ? 這款被命名為Scal
    的頭像 發(fā)表于 11-11 09:26 ?2271次閱讀

    琶洲實驗室與中科曙光達成多項合作共識

    新、智能計算產(chǎn)品事業(yè)部副總經(jīng)理胡曉東等相關(guān)領(lǐng)導(dǎo),圍繞超大規(guī)模集群推理技術(shù)、大模型OS、人工智能集群高速互聯(lián)技術(shù)三大核心領(lǐng)域展開深度研討,
    的頭像 發(fā)表于 08-28 11:27 ?1602次閱讀

    中科曙光智融合方案助力國產(chǎn)中心建設(shè)

    近期,位于魯中南地區(qū)的某大型中心正式啟動建設(shè),標志著國產(chǎn)技術(shù)在該區(qū)域數(shù)字經(jīng)濟中的重要突破。該中心采用中科
    的頭像 發(fā)表于 07-31 17:13 ?1592次閱讀

    AI原生架構(gòu)升級:RAKsmart服務(wù)器在超大規(guī)模模型訓(xùn)練中的突破

    近年來,隨著千億級參數(shù)模型的崛起,AI訓(xùn)練對的需求呈現(xiàn)指數(shù)級增長。傳統(tǒng)服務(wù)器架構(gòu)在應(yīng)對分布式訓(xùn)練、高并發(fā)計算和顯存優(yōu)化等場景時逐漸顯露瓶頸。而RAKsmart為超大規(guī)模模型訓(xùn)練提供了全新的
    的頭像 發(fā)表于 04-24 09:27 ?786次閱讀

    DeepSeek推動AI需求:800G光模塊的關(guān)鍵作用

    類型和功耗選項,是數(shù)據(jù)中心向800G帶寬擴展的理想選擇。 市場前景廣闊: 隨著AI需求的不斷增長,尤其是在超大規(guī)模數(shù)據(jù)中心和AI集群的建設(shè)中,對高帶寬光模塊的需求愈加迫切。
    發(fā)表于 03-25 12:00

    偉創(chuàng)如何應(yīng)對超大規(guī)模數(shù)據(jù)中心建設(shè)挑戰(zhàn)

    在當(dāng)今瞬息變的數(shù)字世界中,數(shù)據(jù)中心正面臨著前所未有的挑戰(zhàn)。隨著人工智能(AI)的迅速崛起,傳統(tǒng)的數(shù)據(jù)中心設(shè)計與運營模式遭遇了巨大壓力。偉創(chuàng)通信、企業(yè)和云業(yè)務(wù)總裁Rob Campbell 指出,超大規(guī)模數(shù)據(jù)中心建設(shè)面臨獨特挑戰(zhàn)
    的頭像 發(fā)表于 03-06 13:58 ?904次閱讀