91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

摩爾線程GPU原生FP8計(jì)算助力AI訓(xùn)練

摩爾線程 ? 來源:摩爾線程 ? 2025-03-17 17:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓(xùn)練策略和高性能算子庫,這兩大框架在國產(chǎn)全功能GPU上實(shí)現(xiàn)了高效的混合并行訓(xùn)練和推理,顯著提升了訓(xùn)練效率與穩(wěn)定性。摩爾線程是國內(nèi)率先原生支持FP8計(jì)算精度的國產(chǎn)GPU企業(yè),此次開源不僅為AI訓(xùn)練和推理提供了全新的國產(chǎn)化解決方案,更對推動(dòng)國產(chǎn)GPU在AI大模型領(lǐng)域的應(yīng)用具有重要意義。

▼MT-MegatronLM開源地址:

https://github.com/MooreThreads/MT-MegatronLM

▼MT-TransformerEngine開源地址:

https://github.com/MooreThreads/MT-TransformerEngine

框架介紹

MT-MegatronLM是面向全功能GPU的開源混合并行訓(xùn)練框架,支持dense模型、多模態(tài)模型及MoE(混合專家)模型的高效訓(xùn)練。該框架利用全功能GPU支持FP8混合精度策略、高性能算子庫muDNN與集合通信庫MCCL,可以顯著提升國產(chǎn)全功能GPU集群的算力利用率。

MT-TransformerEngine主要用于Transformer模型的高效訓(xùn)練與推理優(yōu)化,通過算子融合、并行加速策略等技術(shù),充分釋放摩爾線程全功能GPU高密度計(jì)算的潛力和memory bound算子的效率。

技術(shù)突破與優(yōu)勢

兩大框架的技術(shù)突破集中體現(xiàn)在硬件適配與算法創(chuàng)新的深度協(xié)同:

▽混合并行訓(xùn)練:支持Dense、多模態(tài)及MoE模型的混合并行訓(xùn)練,可靈活應(yīng)對不同模型架構(gòu)的復(fù)雜運(yùn)算場景;

▽FP8混合訓(xùn)練策略:結(jié)合摩爾線程GPU原生支持的FP8混合精度訓(xùn)練策略,能夠有效提升訓(xùn)練效率;

▽高性能算子庫:通過高性能算子庫muDNN與通信庫MCCL的深度集成,系統(tǒng)性優(yōu)化了計(jì)算密集型任務(wù)與多卡協(xié)同的通信開銷;同時(shí)結(jié)合摩爾線程開源Simumax庫,可自動(dòng)進(jìn)行并行策略搜索,并針對不同模型和加速環(huán)境spec最大化并行訓(xùn)練性能;

▽異常訓(xùn)練處理:框架內(nèi)置的rewind異?;謴?fù)機(jī)制,可自動(dòng)回滾至最近穩(wěn)定節(jié)點(diǎn)繼續(xù)訓(xùn)練,大幅提升大規(guī)模訓(xùn)練的穩(wěn)定性;

▽完整的兼容性:兩個(gè)框架兼容GPU主流生態(tài),既保障了現(xiàn)有生態(tài)的平滑遷移,也為開發(fā)者構(gòu)建自有的AI技術(shù)棧提供了底層支撐。

▼摩爾線程Simumax開源地址:

https://github.com/MooreThreads/SimuMax

實(shí)際應(yīng)用效果

在實(shí)際應(yīng)用中,這兩個(gè)框架的充分結(jié)合已經(jīng)取得了顯著的成果。這些成果不僅驗(yàn)證了框架的技術(shù)成熟度,也為國產(chǎn)GPU生態(tài)的規(guī)?;瘧?yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。

▽高效訓(xùn)練:在全功能GPU集群上,Llama3 8B模型的訓(xùn)練任務(wù),可以利用FP8在loss幾乎無損的情況下MFU達(dá)到90%以上;(如下圖所示)

4a65906c-fff3-11ef-9310-92fbcf53809c.png

圖注:利用摩爾線程FP8混合精度加速技術(shù)在loss無損的情況下得到28%的加速

▽復(fù)現(xiàn)DeepSeek 滿血版訓(xùn)練:摩爾線程已深度集成并開源對DeepSeek并行算法DualPipe的高效支持,MT-DualPipe可以完整接入MT-Megatron框架和MT-TransformerEngine框架,成功實(shí)現(xiàn)DeepSeek V3訓(xùn)練流程的完整復(fù)現(xiàn),支持MLA、MTP及多種專家平衡策略;

▽性能大幅優(yōu)化:通過多種Transformer算子融合技術(shù),顯著提升了內(nèi)存帶寬利用率,有效緩解memory bound瓶頸,進(jìn)一步釋放國產(chǎn)GPU的硬件潛力。

持續(xù)優(yōu)化與生態(tài)共建

為加速國產(chǎn)GPU生態(tài)發(fā)展與建設(shè),摩爾線程將持續(xù)優(yōu)化MT-MegatronLM與MT-TransformerEngine框架,并引入一系列創(chuàng)新功能:

▽Dual Pipe/ZeroBubble并行策略:進(jìn)一步降低氣泡率,提升并行訓(xùn)練效率;

▽多種FP8優(yōu)化策略:獨(dú)創(chuàng)的FP8優(yōu)化策略,提高訓(xùn)練的性能和穩(wěn)定性;

▽異步checkpoint策略:提高訓(xùn)練過程中的容錯(cuò)能力和效率;

▽優(yōu)化后的重計(jì)算策略:減少計(jì)算和顯存開銷,提高訓(xùn)練速度;

▽容錯(cuò)訓(xùn)練策略:獨(dú)創(chuàng)的容錯(cuò)訓(xùn)練算法,增強(qiáng)訓(xùn)練過程中的容錯(cuò)能力;

▽集成摩爾線程FlashMLA和DeepGemm庫:進(jìn)一步釋放摩爾線程GPU的算力和FP8計(jì)算能力,提升計(jì)算性能和效率。

摩爾線程始終致力于推動(dòng)開源生態(tài)的發(fā)展,通過技術(shù)開放與生態(tài)共建,加速國產(chǎn)全功能GPU在AI計(jì)算領(lǐng)域的規(guī)?;瘧?yīng)用,為更多用戶提供更智能、高效的解決方案。

▼ 關(guān)于摩爾線程

摩爾線程成立于2020年10月,以全功能GPU為核心,致力于向全球提供加速計(jì)算的基礎(chǔ)設(shè)施和一站式解決方案,為各行各業(yè)的數(shù)智化轉(zhuǎn)型提供強(qiáng)大的AI計(jì)算支持。

我們的目標(biāo)是成為具備國際競爭力的GPU領(lǐng)軍企業(yè),為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進(jìn)的加速計(jì)算平臺(tái)。我們的愿景是為美好世界加速。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5192

    瀏覽量

    135407
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39701

    瀏覽量

    301297
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4203

    瀏覽量

    46109
  • 摩爾線程
    +關(guān)注

    關(guān)注

    2

    文章

    279

    瀏覽量

    6447

原文標(biāo)題:開源MT-MegatronLM和MT-TransformerEngine|摩爾線程GPU原生FP8計(jì)算助力AI訓(xùn)練

文章出處:【微信號(hào):moorethreads,微信公眾號(hào):摩爾線程】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    摩爾線程MTT S5000率先完成對GLM-5的適配

    的算子覆蓋與強(qiáng)大的生態(tài)兼容能力,摩爾線程成功打通了模型推理全鏈路,并深度釋放MTT S5000的原生FP8加速能力,在確保模型精度的同時(shí)顯著降低了顯存占用,實(shí)現(xiàn)了GLM-5的高性能推理
    的頭像 發(fā)表于 02-12 10:34 ?632次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>MTT S5000率先完成對GLM-5的適配

    Day-0支持|摩爾線程MTT S5000率先完成對GLM-5的適配

    的算子覆蓋與強(qiáng)大的生態(tài)兼容能力,摩爾線程成功打通了模型推理全鏈路,并深度釋放MTT S5000的原生FP8加速能力,在確保模型精度的同時(shí)顯著降低了顯存占用,實(shí)現(xiàn)了GLM-5的高性能推理
    發(fā)表于 02-12 09:15 ?482次閱讀
    Day-0支持|<b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>MTT S5000率先完成對GLM-5的適配

    摩爾線程正式開源TileLang-MUSA項(xiàng)目

    近日,摩爾線程正式開源TileLang-MUSA項(xiàng)目,實(shí)現(xiàn)對TileLang編程語言的完整支持。該項(xiàng)目已成功在摩爾線程多代全功能GPU上完成
    的頭像 發(fā)表于 02-11 16:57 ?1229次閱讀

    全棧國產(chǎn)AI Coding上線:摩爾線程+硅基流動(dòng)+智譜,強(qiáng)強(qiáng)聯(lián)合!

    摩爾線程今日正式推出AI Coding Plan 智能編程服務(wù)。作為首個(gè)基于國產(chǎn)全功能 GPU 算力底座構(gòu)建的智能開發(fā)解決方案,該服務(wù)以 MTT S5000 強(qiáng)勁的全精度
    的頭像 發(fā)表于 02-03 17:07 ?1423次閱讀
    全棧國產(chǎn)<b class='flag-5'>AI</b> Coding上線:<b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>+硅基流動(dòng)+智譜,強(qiáng)強(qiáng)聯(lián)合!

    摩爾線程公布全功能GPU架構(gòu)路線圖:以“花港”新架構(gòu)與萬卡訓(xùn)練集群,開啟自主算力新時(shí)代

    2025年12月20日,北京——摩爾線程首屆MUSA開發(fā)者大會(huì)(簡稱:MDC 2025)在北京中關(guān)村國際創(chuàng)新中心正式開幕。作為國內(nèi)首個(gè)聚焦全功能GPU的開發(fā)者技術(shù)盛會(huì),大會(huì)系統(tǒng)展示了摩爾
    發(fā)表于 12-20 12:51 ?1083次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>公布全功能<b class='flag-5'>GPU</b>架構(gòu)路線圖:以“花港”新架構(gòu)與萬卡<b class='flag-5'>訓(xùn)練</b>集群,開啟自主算力新時(shí)代

    摩爾線程新一代GPU架構(gòu)即將揭曉

    12月19日至20日,摩爾線程首屆MUSA開發(fā)者大會(huì)(MUSA Developer Conference,簡稱MDC 2025)將在北京中關(guān)村國際創(chuàng)新中心拉開帷幕。作為國內(nèi)首個(gè)聚焦全功能GPU
    的頭像 發(fā)表于 12-13 15:14 ?2043次閱讀

    摩爾線程亮相GOTC 2025全球開源技術(shù)峰會(huì)

    摩爾線程高級副總裁楊上山在主論壇發(fā)表《摩爾線程全功能GPU原生支持開源生態(tài)》的主題演講,系統(tǒng)闡
    的頭像 發(fā)表于 11-04 10:43 ?2155次閱讀

    摩爾線程吳慶詳解 MUSA 軟件棧:以技術(shù)創(chuàng)新釋放 KUAE 集群潛能,引領(lǐng) GPU 計(jì)算新高度?

    的分享。GPU 計(jì)算軟件開發(fā)總監(jiān)吳慶登上講臺(tái),發(fā)表了題為《摩爾線程 MUSA 軟件棧助力 KUAE 集群釋放無限潛能》的演講。他從專業(yè)視角出
    的頭像 發(fā)表于 07-28 13:47 ?6073次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>吳慶詳解 MUSA 軟件棧:以技術(shù)創(chuàng)新釋放 KUAE 集群潛能,引領(lǐng) <b class='flag-5'>GPU</b> <b class='flag-5'>計(jì)算</b>新高度?

    摩爾線程亮相WAIC 2025:以“AI工廠”理念驅(qū)動(dòng)算力進(jìn)化,全棧AI應(yīng)用賦能千行百業(yè)

    模型的“超級工廠”。此次參會(huì)不僅彰顯了摩爾線程AI基礎(chǔ)設(shè)施領(lǐng)域的系統(tǒng)性創(chuàng)新,更通過多行業(yè)案例展現(xiàn)了國產(chǎn)GPU技術(shù)的廣泛應(yīng)用前景。 ? ? 首提“A
    的頭像 發(fā)表于 07-28 11:34 ?2088次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>亮相WAIC 2025:以“<b class='flag-5'>AI</b>工廠”理念驅(qū)動(dòng)算力進(jìn)化,全棧<b class='flag-5'>AI</b>應(yīng)用賦能千行百業(yè)

    摩爾線程AI工廠”:五大核心技術(shù)支撐,打造大模型訓(xùn)練超級工廠

    演講中表示,為應(yīng)對生成式AI爆發(fā)式增長下的大模型訓(xùn)練效率瓶頸,摩爾線程將通過系統(tǒng)級工程創(chuàng)新,構(gòu)建新一代AI
    的頭像 發(fā)表于 07-28 11:28 ?4528次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>“<b class='flag-5'>AI</b>工廠”:五大核心技術(shù)支撐,打造大模型<b class='flag-5'>訓(xùn)練</b>超級工廠

    摩爾線程AI工廠”:以系統(tǒng)級創(chuàng)新定義新一代AI基礎(chǔ)設(shè)施

    演講中表示,為應(yīng)對生成式AI爆發(fā)式增長下的大模型訓(xùn)練效率瓶頸,摩爾線程將通過系統(tǒng)級工程創(chuàng)新,構(gòu)建新一代AI
    發(fā)表于 07-28 10:34 ?2794次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>“<b class='flag-5'>AI</b>工廠”:以系統(tǒng)級創(chuàng)新定義新一代<b class='flag-5'>AI</b>基礎(chǔ)設(shè)施

    摩爾線程AI算力平臺(tái)AutoDL達(dá)成深度合作

    近日,摩爾線程與國內(nèi)領(lǐng)先的AI算力平臺(tái)AutoDL宣布達(dá)成深度合作,雙方聯(lián)合推出面向個(gè)人開發(fā)者的“摩爾線程專區(qū)”,首次將國產(chǎn)
    的頭像 發(fā)表于 05-23 16:10 ?1719次閱讀

    摩爾線程發(fā)布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

    , 支持原生FP8數(shù)據(jù)類型,支持PyTorch 2.5.0 ,并通過多項(xiàng)針對MUSA計(jì)算平臺(tái)的性能優(yōu)化,進(jìn)一步提升了對AI模型和大規(guī)模數(shù)據(jù)處理的支持能力。
    的頭像 發(fā)表于 05-11 16:41 ?1595次閱讀

    摩爾線程發(fā)布云電腦驅(qū)動(dòng)MT vGPU 2.7.0

    3月18日,摩爾線程正式發(fā)布云電腦驅(qū)動(dòng)MT vGPU 2.7.0。新版本在國內(nèi)首次實(shí)現(xiàn)了國產(chǎn)GPU云電腦對DirectX 12的支持,同時(shí)顯著提升圖形渲染性能與兼容性。通過全功能GPU
    的頭像 發(fā)表于 03-19 15:56 ?1065次閱讀

    摩爾線程全面支持DeepSeek開源周成果

    DeepSeek開源周正式收官,作為國內(nèi)率先原生支持FP8計(jì)算精度的國產(chǎn)GPU企業(yè),摩爾線程迅速
    的頭像 發(fā)表于 03-04 10:06 ?1037次閱讀