91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

萬卡時代不打群架,中國智算正過三關(guān)

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2024-05-08 21:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

我前兩天看到了一個挺震撼的視頻,科學(xué)家們在NASA戈達(dá)德空間飛行中心的天體物理學(xué)家指導(dǎo)下,使用Discover超級計算機模擬了跳入黑洞的過程。

畫面視覺效果攝人心魄,而一組數(shù)據(jù)同樣讓我感到震撼:該視頻生成10TB的數(shù)據(jù),只用了5天,耗費了0.3%總算力。如果我們想用自己的筆記本電腦模擬這個場景,需要花費的時間是10年。

“時間就是金錢,效率就是生命”,這句改開時代的口號,在大模型驅(qū)動的智算時代,仍舊不過時。

算力作為生產(chǎn)力,所節(jié)約的不只是金錢,更重要的是時間。

目前算力集群已經(jīng)從千卡,邁入了萬卡、五萬卡集群。甚至有媒體預(yù)測,GPT6未來部署的時候,需要70萬-80萬張卡才能支撐。

那問題來了,萬卡集群在執(zhí)行大規(guī)模訓(xùn)練任務(wù)時負(fù)載重,發(fā)生軟硬件錯誤的概率,當(dāng)然也就更高。萬卡時代,一張卡、一臺機器或一個鏈路的故障,都可能導(dǎo)致中斷,拖慢進(jìn)程。那么十萬卡、百萬卡等更大數(shù)量級的提升,未來如何應(yīng)對?

最近幾個月,我們團隊跟不少ICT廠商做了交流,簡單總結(jié)一下行業(yè)動向,那就是:邁入萬卡時代,必須“過三關(guān)”。

萬卡時代,做AI=“中彩票”?

有必要首先說明一下,為什么智能計算仍在“堆卡”?從千卡、萬卡到十萬卡、百萬卡,這個趨勢是可持續(xù)的嗎?

伴隨著模型規(guī)模與數(shù)據(jù)參數(shù)愈發(fā)龐大,在可以預(yù)見的未來,基礎(chǔ)設(shè)施層面的“堆卡”競賽仍將繼續(xù)。

目前,國際科技巨頭如谷歌、微軟、蘋果等,在算力集群建設(shè)上持續(xù)投入,其中AI算力占總算力支出的比例持續(xù)增長,預(yù)計到2025年將達(dá)到25%。放眼國內(nèi),萬卡及以上的組網(wǎng)也成為下一代智算中心的建設(shè)重點。

然而,算力集群卡的數(shù)量非線性增加,會帶來更大的不穩(wěn)定性和協(xié)作難度。正如新華三在前不久的媒體與分析師大會上所說,單卡單打獨斗我們(與N卡)有差距,多卡集群服務(wù)不能打群架。

wKgZomY7XLaAXni9AATBFxeGOjg564.jpg

(拍攝自新華三集團2024媒體與分析師溝通會)

我們知道,分布式并行訓(xùn)練能夠加速訓(xùn)練過程,是大模型常用的訓(xùn)練方式,相當(dāng)于將任務(wù)分配給多個AI硬件,組成協(xié)作節(jié)點和集群,主打一個“人多力量大”。但是,人多還得心齊啊,讓多卡用高效一致的步伐進(jìn)行協(xié)作,卻是一件難事,容易出現(xiàn)“打群架”的情況。

多卡“打架”,集群就會因故障而中斷。

一位清華大學(xué)計算機教授曾分享過一個數(shù)據(jù),其團隊寫一次容錯檢查點checkpoint需要三小時,這還是世界先進(jìn)水平(未經(jīng)優(yōu)化前)。

工作三小時就得被迫停下,活(訓(xùn)練過程)又一點不能少,只能加班加點。普通打工人聽了都得“抓狂”,更別說要跟技術(shù)創(chuàng)新?lián)屗俣?、作業(yè)生產(chǎn)要效率的產(chǎn)學(xué)界了。

多卡集群“不打群架”,將算力最大化地有效使用起來,發(fā)揮每一張GPU的價值,提升訓(xùn)練效率,對開發(fā)人員來說,堪比中“彩票”,價值很大,但概率卻不定。

顯然,千行百業(yè)智能化,當(dāng)然不能靠“中彩”和運氣。

當(dāng)算力集群即將從萬卡,邁入五萬、十萬乃至百萬卡的清晰未來,我們不能只以單一的規(guī)模和FLOPS浮點運算次數(shù),來衡量智算中心的綜合水平。其他因素也同樣重要,比如集群擴展性、兼容性、算效比、能耗比等。

如何提供一個穩(wěn)定可靠高性能的智算基礎(chǔ)設(shè)施,萬卡時代要“過三關(guān)”。

第一關(guān):闖過資源墻

超大規(guī)模集群的不穩(wěn)定性,一方面要對抗硬件數(shù)量非線性增長帶來的“增熵”。

隨著集群增大,AI芯片也會出現(xiàn)算力衰減的情況。支撐穩(wěn)定高效的訓(xùn)練,就需要優(yōu)化分布式計算系統(tǒng)的并行加速比。

更高的加速比,可以讓集群在執(zhí)行同一任務(wù)時,獲得更高的速度和效率。也就是說,算力集群能夠最大限度地一直運轉(zhuǎn),那么有效訓(xùn)練時間的比例更高,是開發(fā)人員衡量集群性能的一個關(guān)鍵。

比如國產(chǎn)大模型文心4.0,就通過百度智能云的萬卡集群進(jìn)行訓(xùn)練,支持模型的穩(wěn)定高效迭代進(jìn)化。目前,百度智能云上萬卡訓(xùn)練集群的加速比和有效訓(xùn)練時間,達(dá)到 95% 以上。

wKgaomY7XLiAe_x6AANoU-Sp9e8566.jpg

(拍攝自IPF2024浪潮信息生態(tài)伙伴大會)

另一方面,中國智算還有一個特殊的要求,那就是闖過多元異構(gòu)算力的“資源墻(resource wall)”。

不少智算中心,使用不一樣的AI芯片服務(wù)器組成異構(gòu)集群合池訓(xùn)練,共同完成一個大模型訓(xùn)練。尤其是此前GPU緊缺的情況下,一些數(shù)據(jù)中心、智算中心在不同時期,購買了不同的GPU,形成了不同類型、不同版本的異構(gòu)集群。

多元異構(gòu)的國產(chǎn)算力,既能以用促建,促進(jìn)國產(chǎn)AI芯片的發(fā)展,減少對海外單一供應(yīng)鏈的依賴,也能發(fā)揮不同類型芯片的特性,提高計算資源的利用率和訓(xùn)練效率。

但要將多元異構(gòu)算力進(jìn)行合池訓(xùn)練,會帶來精度誤差、同步問題,以及更復(fù)雜的資源管理和調(diào)度策略,更高的開發(fā)運維難度等。

未來,每個行業(yè)、每家公司都可能訓(xùn)練自己的大模型,帶來充沛、高效、穩(wěn)定的AI算力需求。讓十萬百萬級集群、多元異構(gòu)的算卡,以高效一致的步伐進(jìn)行協(xié)作,將成為中國智算行業(yè)的關(guān)鍵挑戰(zhàn)。

第二關(guān):踏寬通信

如果網(wǎng)絡(luò)通信的聯(lián)接能力不暢,大量算力資源折損在傳輸過程中,給智算中心與AI模型開發(fā)者帶來的損失都是難以估量的。

如何將大量算卡有效地連接起來,形成一個高效穩(wěn)定的計算網(wǎng)絡(luò),是支撐超大規(guī)模集群的關(guān)鍵。

需要說明的是,網(wǎng)絡(luò)作為算力運輸?shù)牡缆?,并不能無止境地拓寬。集群網(wǎng)絡(luò),尤其是萬卡、十萬卡集群網(wǎng)絡(luò)的拓展,會受到幾方面的制約。

首先是成本上,萬卡乃至五萬卡集群,所需要的網(wǎng)絡(luò)設(shè)備數(shù)、端口數(shù)、光模塊數(shù)量,可能會達(dá)到百萬級別。而一個普通的400G光模塊功耗就在10瓦到12瓦,當(dāng)一個網(wǎng)絡(luò)需要一萬多個光模塊,僅僅是電費成本都非常龐大。

wKgZomY7XLiAcfSsAANqXSCC1kA090.jpg

此外,有業(yè)內(nèi)人士向我們表示,萬卡集群還容易搭建起來,未來如果要有百萬卡集群來訓(xùn)練的大模型,可能整個城市的電都不夠用。解決這個問題,那就需要分區(qū)、跨城域的算網(wǎng),比如將多個萬卡集群連起來,組成五萬卡、十萬卡集群。這就需要超高帶寬的400G甚至800G網(wǎng)絡(luò),低時延、無損地支撐算力資源調(diào)度。

而一張運力強大、輻射范圍廣的算力網(wǎng)絡(luò),意味著管理運維的難度,也前所未有地增大了,依靠傳統(tǒng)人力運維是不現(xiàn)實、不高效的。通過智能化、平臺化、自動化,來實現(xiàn)更有效的網(wǎng)絡(luò)納管,是華為、新華三等ICT廠商正在探索的方向。

第三關(guān):走出軟件生態(tài)叢林

鄭緯民院士曾提到一個觀點:目前國內(nèi)已經(jīng)有30多家公司推出了國產(chǎn)AI芯片,“但用戶不太喜歡用,核心問題就是生態(tài)不好”。

這里的生態(tài),指的是國產(chǎn)軟件生態(tài)。

目前,編程框架、并行加速、通信庫、算子庫、AI編譯器、編程語言、調(diào)度器、內(nèi)存分配系統(tǒng)、容錯系統(tǒng)、存儲系統(tǒng)等關(guān)鍵軟件,雖然都有國產(chǎn)的,但仍有不足之處,比如功能不夠齊全、性能不夠好、生態(tài)貢獻(xiàn)者不夠繁榮等。

在鄭院士看來,如果能把軟件問題解決好,那么國產(chǎn)AI芯片硬件性能達(dá)到國外芯片的60%,大多數(shù)用戶也可以是滿意的,國產(chǎn)AI卡也會大受歡迎。軟件做不好,國產(chǎn)硬件再好,也沒有市場。

而萬卡時代,意味著AI硬件的種類更多,既有不同架構(gòu),還有不同品類、不同版本。企業(yè)或開發(fā)者想要著手AI模型和應(yīng)用開發(fā),會在復(fù)雜的軟件生態(tài)中暈頭轉(zhuǎn)向,很難快速找到路徑。

比如說,每個芯片廠商都有自己的底層軟件棧,且彼此不兼容,這就給AI開發(fā)者帶來了大量移植工作,適配遷移的操作繁瑣,時間、人力、金錢成本都很高。

我們注意到,2024年以來,幫助企業(yè)和AI開發(fā)者加快走出軟件叢林,不少智算廠商都在強化AI軟件賦能。比如寧暢在3月提出了“全局智算”戰(zhàn)略,以“AI軟動力”支持“精、準(zhǔn)、穩(wěn)”的AI集群設(shè)計,幫助客戶實現(xiàn)大規(guī)模AI集群方案架構(gòu)設(shè)計;中科曙光首次提出了“立體計算”體系,在“建、用、生態(tài)”三維發(fā)力的全新計算體系中,加大對軟件生態(tài)的投入和支持;4月浪潮信息發(fā)布的企業(yè)大模型開發(fā)平臺“元腦企智(EPAI)”,通過端到端的解決方案,為企業(yè)提供AI應(yīng)用開發(fā)全流程的系列工具。

可以看到,“軟硬兼施”的均衡能力,正在成為智算市場的兵家必爭之地。

wKgaomY7XLmABt3oAAWjkyC_OnM580.jpg

(拍攝自寧暢全局智算發(fā)布會)

大模型正在重塑產(chǎn)品、企業(yè)和社會,AI將無處不在,也讓萬卡時代成為一個確定性的未來。五萬卡、十萬卡乃至百萬卡的算力集群,將是第四次工業(yè)革命的蒸汽機、發(fā)動機。

量子力學(xué)的創(chuàng)始人海森堡說過,提出正確的問題,往往等于解決了問題的大半。

從這個角度來說,正在闖關(guān)的中國智算行業(yè),一定能在萬卡時代,將算力的“心臟”握在自己手中。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 超級計算機
    +關(guān)注

    關(guān)注

    2

    文章

    482

    瀏覽量

    43379
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1532

    瀏覽量

    16746
  • 智算中心
    +關(guān)注

    關(guān)注

    0

    文章

    115

    瀏覽量

    2543
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    華為領(lǐng)銜,劍客入局!十萬集群落地,國產(chǎn)力芯片強勢崛起

    中國移動宣布,將持續(xù)加大對人工智能領(lǐng)域的投入力度,總體投入翻一番,建成國內(nèi)規(guī)模最大、技術(shù)領(lǐng)先的智基礎(chǔ)設(shè)施,探索十萬集群建設(shè),全國產(chǎn)智能
    的頭像 發(fā)表于 10-14 09:30 ?1.4w次閱讀
    華為領(lǐng)銜,<b class='flag-5'>三</b>劍客入局!十萬<b class='flag-5'>卡</b>智<b class='flag-5'>算</b>集群落地,國產(chǎn)<b class='flag-5'>算</b>力芯片強勢崛起

    中國重汽2026年1月重出口銷量超1.6

    近日,中國重汽再傳捷報:1月份重出口銷量超1.6輛,繼去年9月首次突破1.5輛大關(guān)后,僅用4個月便再度刷新由自己保持的行業(yè)紀(jì)錄,又一次創(chuàng)下歷史新高,強勢開啟新年“開門紅”。
    的頭像 發(fā)表于 02-09 15:28 ?453次閱讀

    中科曙光3套scaleX超集群落地國家超互聯(lián)網(wǎng)鄭州核心節(jié)點

    2月5日,由中科曙光提供的3套超集群系統(tǒng)在國家超互聯(lián)網(wǎng)鄭州核心節(jié)點同時上線試運行,成為全國首個實現(xiàn)3部署、且實際投入運營的最大國產(chǎn)
    的頭像 發(fā)表于 02-09 10:32 ?484次閱讀

    中國力芯片的拐點時刻

    作者|Taylor出品|芯片技術(shù)與工藝當(dāng)OpenAI的GPT-5在得克薩斯州的機房中晝夜轟鳴,當(dāng)Nvdia的H200芯片被炒至數(shù)十萬美元仍一難求,中國力芯片產(chǎn)業(yè)正站在一個歷史性拐點——這不是
    的頭像 發(fā)表于 01-31 07:00 ?1728次閱讀
    <b class='flag-5'>中國</b><b class='flag-5'>算</b>力芯片的拐點時刻

    中科曙光scaleX超集群重塑超大規(guī)模力基礎(chǔ)設(shè)施

    在“人工智能+”行動深入推進(jìn)的當(dāng)下,力基礎(chǔ)設(shè)施已成為國家戰(zhàn)略競爭力的核心,而超大規(guī)模集群的運維管控難題卻日益凸顯。中科曙光scaleX超集群打造的智能管理體系,正以“能管住-管得穩(wěn)-用得好”的進(jìn)階邏輯,重塑超大規(guī)模
    的頭像 發(fā)表于 01-30 15:43 ?741次閱讀

    中科曙光scaleX超集群背后的持續(xù)創(chuàng)新

    集群的發(fā)展浪潮正以超乎想象的速度襲來,未來五年,十萬級的力集群將成為標(biāo)配。但一個核心挑戰(zhàn)也隨之而來:當(dāng)成千上的芯片緊密堆疊,如何將產(chǎn)生的巨額熱量快速帶走?
    的頭像 發(fā)表于 01-19 14:49 ?618次閱讀

    中科曙光scaleX超集群亮相中國制造“十四五”成就展

    12月29日,由中國國家博物館與工業(yè)和信息化部新聞宣傳中心聯(lián)合主辦的“筑基強國路—中國制造‘十四五’成就展”正式開幕。經(jīng)專家評審委員會嚴(yán)格遴選,中科曙光scaleX超集群成功入選,
    的頭像 發(fā)表于 12-30 15:49 ?528次閱讀

    揭秘天合光能和中國聯(lián)通江源綠電智融合智能微電網(wǎng)示范項目

    中國聯(lián)通江源國家大數(shù)據(jù)基地是由天合光能和中國聯(lián)通聯(lián)合打造的江源綠電智融合智能微電網(wǎng)示范項目,是全球首個“零碳
    的頭像 發(fā)表于 09-24 16:01 ?1149次閱讀

    英偉達(dá) H100 GPU 掉?做好這五點,讓力穩(wěn)如泰山!

    能飆到400W+,供電不穩(wěn)就是掉的“頭號殺手”,先把供電這關(guān)守?。哼x對電源+定期查服務(wù)器電源必須夠功率(單卡至少配800W以上白金認(rèn)證電源,多總功耗),每
    的頭像 發(fā)表于 09-05 11:03 ?1162次閱讀
    英偉達(dá) H100 GPU 掉<b class='flag-5'>卡</b>?做好這五點,讓<b class='flag-5'>算</b>力穩(wěn)如泰山!

    昆侖芯科技亮相2025中國力大會

    8月22日至24日,2025中國力大會在山西大同舉辦,本屆大會以“網(wǎng)筑基 智引未來”為主題,聚焦力網(wǎng)絡(luò)新趨勢,共話力產(chǎn)業(yè)新未來。作為
    的頭像 發(fā)表于 08-27 15:11 ?1843次閱讀

    燧原科技國產(chǎn)集群通過中國信通院權(quán)威認(rèn)證

    近日,中國信息通信研究院(以下簡稱“中國信通院”)成功召開集群服務(wù)推進(jìn)方陣年中總交流會。會議期間,
    的頭像 發(fā)表于 07-04 16:50 ?1223次閱讀

    弘信電子旗下燧弘華創(chuàng)加入集群服務(wù)推進(jìn)方陣

    近日,中國信息通信研究院在北京召開集群服務(wù)推進(jìn)方陣(ICCPA)年中總結(jié)交流會。會上為第二批成員單位辦法證書,發(fā)布一系列產(chǎn)業(yè)研究成果,并通過深度交流研討,凝聚產(chǎn)業(yè)共識,規(guī)范產(chǎn)品
    的頭像 發(fā)表于 07-03 15:43 ?878次閱讀

    時代,你的GPU選對了嗎?張表看清專業(yè)與消費的本質(zhì)差異

    顯存大小只是冰山一角,單/雙精度力才是決定GPU真實性能的關(guān)鍵。一、顯存越大越好?警惕選購陷阱許多用戶在挑選GPU時,第一眼總盯著顯存容量。我們整理了當(dāng)前顯存Top10的王者:關(guān)鍵發(fā)現(xiàn):H200以
    的頭像 發(fā)表于 06-20 18:32 ?3004次閱讀
    <b class='flag-5'>算</b>力<b class='flag-5'>時代</b>,你的GPU選對了嗎?<b class='flag-5'>三</b>張表看清專業(yè)<b class='flag-5'>卡</b>與消費<b class='flag-5'>卡</b>的本質(zhì)差異

    華為亮相2025中國移動云智大會

    中國移動云智大會期間,以“策源新網(wǎng),構(gòu)筑新智”為主題的力網(wǎng)絡(luò)新型智策源技術(shù)論壇成功舉
    的頭像 發(fā)表于 04-14 16:48 ?1228次閱讀

    華為助力中國移動全面升級“九州”力互聯(lián)網(wǎng)

    中國移動云智大會期間,以“智啟新,安全筑基“為主題的智基礎(chǔ)設(shè)施及安全峰會成功舉辦。會上,中國移動聯(lián)合華為等重磅發(fā)布了《“九州”
    的頭像 發(fā)表于 04-14 16:46 ?1164次閱讀