91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

借助NVIDIA Megatron-Core大模型訓(xùn)練框架提高顯存使用效率

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-10-21 10:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著模型規(guī)模邁入百億、千億甚至萬億參數(shù)級別,如何在有限顯存中“塞下”訓(xùn)練任務(wù),對研發(fā)和運(yùn)維團(tuán)隊都是巨大挑戰(zhàn)。NVIDIA Megatron-Core作為流行的大模型訓(xùn)練框架,提供了靈活高效的并行化策略;理解這些策略對顯存的影響,才能更好地規(guī)劃訓(xùn)練超參數(shù),在不 OOM (out of memory) 的情況下盡可能提升硬件使用效率。

顯存的組成與衡量方法:通過 torch 的顯存可視化工具捕捉一個典型的模型訓(xùn)練中的顯存占用。靜態(tài)顯存主要組成部分包括模型參數(shù)、梯度和優(yōu)化器的所占用的空間,及一些其他的系統(tǒng)開銷。設(shè)定 R 為參數(shù)重復(fù)次數(shù),則對 bf16 訓(xùn)練來說每個參數(shù)占用的字節(jié)數(shù)為 6+12/R。對于Mixture of Experts (MoE)模型來說,由于 Megatron 支持 parallel folding,模型的模型會分為稠密部分和 MoE 部分,其中稠密部分的 R 為 DP*CP,MoE 部分的 R 為 EDP=n_GPU/PP/EP/ETP。

動態(tài)顯存則是模型前向傳播過程中暫存的中間結(jié)果,用于反向傳播時計算梯度,通常被稱為激活 (Activation),絕大部分為 bf16 數(shù)據(jù)類型。

對顯存影響的關(guān)鍵超參數(shù):Megatron-Core 支持以下并行、重算維度,組合后可覆蓋當(dāng)下主流大模型訓(xùn)練需求。

ca6c8c4e-a81c-11f0-8c8f-92fbcf53809c.png

約束關(guān)系:`n_GPU / PP = TP×CP×DP = EP×ETP×EDP`,其中 `EDP` 為專家數(shù)據(jù)并行度。

除了完全不重算的情況之外,為了降低動態(tài)顯存,Megatron-Core 0.14 提供

完全重算 (full) 和細(xì)粒度重算 (selective) 這兩檔重算。

顯存估計器的設(shè)計:當(dāng)前 Megatron 基于 torch 實(shí)現(xiàn),所有模塊均派生自 torch.nn.Module,構(gòu)成訓(xùn)練 GPT 類模型的模塊。我們通過實(shí)現(xiàn)一個基類 MemEstimator 并基于此基類派生出所有需要的模塊類,根據(jù)每個模塊的顯存占用特點(diǎn)分別計算其中的參數(shù)量和激活量。然后復(fù)用 Megatron 中本身構(gòu)建模型的代碼,實(shí)現(xiàn)一個 Megatron 模擬器,并可以展示出個層次的模塊數(shù)據(jù)量。

關(guān)鍵結(jié)論:選取 Qwen3 235B 和 DeepSeek v3 兩個時下流行的大模型,使用流行的配置開啟訓(xùn)練,并對比顯存估計的結(jié)果與真實(shí)的顯存占用。兩個模型的實(shí)際峰值與估計峰值相差均小于 2GB。

cac367bc-a81c-11f0-8c8f-92fbcf53809c.png

cb1d6672-a81c-11f0-8c8f-92fbcf53809c.png

通過對動態(tài)顯存分析,只有 TP 和 CP 能降低激活量,EP 和 ETP 只會改變集群內(nèi)激活值的分布,無法降低激活量,PP 和 VPP 由于 1f1b 的流水線預(yù)熱機(jī)制,無法有效降低峰值激活量。對每一部分激活量,可以通過卸載到 CPU 或者重算的方式來降低顯存。Megatron-Core 0.13 當(dāng)前對卸載的支持還在開發(fā)中,但重算已經(jīng)支持。

Megatron-Core 0.13 現(xiàn)已支持通過 CPU 分擔(dān) optimizer 的顯存占用,并可以通過超參數(shù)設(shè)置卸載到 CPU 的比例,每個參數(shù)的 6 字節(jié) (bf16 參數(shù),fp32 梯度) 無法卸載,其余可以卸載。

用例分析:用戶目標(biāo)在 32 張 80GB 顯存的 GPU 上實(shí)現(xiàn) Qwen3-30B-A3B 的強(qiáng)化學(xué)習(xí)訓(xùn)練,序列長度是 10k,用戶使用顯存估計器對并行配置進(jìn)行摸底。

Megatron 開發(fā)者可以通過顯存分析工具的 breakdown 視角,詳細(xì)察看每個模塊的激活量,通過權(quán)衡激活量和計算量尋找性價比高(激活量 / 計算量)的模塊的激活為其開發(fā)進(jìn)行重算或卸載功能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11275

    瀏覽量

    224916
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3647

    瀏覽量

    5176

原文標(biāo)題:探索在大模型訓(xùn)練中使用 Megatron-Core 訓(xùn)練框架提高顯存使用效率

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    在Python中借助NVIDIA CUDA Tile簡化GPU編程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 編程模式。它是自 CUDA 發(fā)明以來 GPU 編程最核心的更新之一。借助 GPU tile kernels,可以用比 SIMT
    的頭像 發(fā)表于 12-13 10:12 ?1189次閱讀
    在Python中<b class='flag-5'>借助</b><b class='flag-5'>NVIDIA</b> CUDA Tile簡化GPU編程

    利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎(chǔ)模型(WFM)的更新,旨在加速物理 AI 模型的測試與驗(yàn)證數(shù)據(jù)生成。借助
    的頭像 發(fā)表于 12-01 09:25 ?1124次閱讀

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是
    發(fā)表于 10-22 07:03

    NVIDIA開源Audio2Face模型及SDK

    NVIDIA 現(xiàn)已開源 Audio2Face 模型與 SDK,讓所有游戲和 3D 應(yīng)用開發(fā)者都可以構(gòu)建并部署帶有先進(jìn)動畫的高精度角色。NVIDIA 開源 Audio2Face 的訓(xùn)練
    的頭像 發(fā)表于 10-21 11:11 ?812次閱讀
    <b class='flag-5'>NVIDIA</b>開源Audio2Face<b class='flag-5'>模型</b>及SDK

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺上的推理性能瓶頸。為實(shí)現(xiàn)這一目標(biāo),其構(gòu)建了多維度的核心實(shí)現(xiàn)路徑:一方面,針對需
    的頭像 發(fā)表于 10-21 11:04 ?1161次閱讀

    NVIDIA 利用全新開源模型與仿真庫加速機(jī)器人研發(fā)進(jìn)程

    。 ? 借助全新的 NVIDIA Cosmos 世界基礎(chǔ)模型,開發(fā)者可以生成多樣化數(shù)據(jù),從而大規(guī)模加速物理 AI 模型訓(xùn)練。 ? 來自斯
    的頭像 發(fā)表于 09-30 09:52 ?3062次閱讀
    <b class='flag-5'>NVIDIA</b> 利用全新開源<b class='flag-5'>模型</b>與仿真庫加速機(jī)器人研發(fā)進(jìn)程

    NVIDIA Isaac Lab多GPU多節(jié)點(diǎn)訓(xùn)練指南

    NVIDIA Isaac Lab 是一個適用于機(jī)器人學(xué)習(xí)的開源統(tǒng)一框架,基于 NVIDIA Isaac Sim 開發(fā),其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,可提供各種物理 AI 功能和
    的頭像 發(fā)表于 09-23 17:15 ?2395次閱讀
    <b class='flag-5'>NVIDIA</b> Isaac Lab多GPU多節(jié)點(diǎn)<b class='flag-5'>訓(xùn)練</b>指南

    借助NVIDIA Cosmos模型提升機(jī)器人訓(xùn)練效率

    隨著物理 AI 系統(tǒng)的不斷發(fā)展,對豐富標(biāo)記數(shù)據(jù)集的需求正在急速增長,已經(jīng)超出了在現(xiàn)實(shí)世界中通過人工采集所能滿足的范圍。世界基礎(chǔ)模型(WFMs)是經(jīng)過訓(xùn)練的生成式 AI 模型,能夠根據(jù)現(xiàn)實(shí)世界環(huán)境的動態(tài),對未來的世界狀態(tài)進(jìn)行仿真、
    的頭像 發(fā)表于 09-23 15:30 ?1000次閱讀
    <b class='flag-5'>借助</b><b class='flag-5'>NVIDIA</b> Cosmos<b class='flag-5'>模型</b>提升機(jī)器人<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>效率</b>

    Votee AI借助NVIDIA技術(shù)加速方言小語種LLM開發(fā)

    Votee AI 利用 NVIDIA 的 GPU 硬件、NeMo Curator 數(shù)據(jù)處理軟件、NeMo Framework 模型訓(xùn)練框架及 Auto Configurator 優(yōu)化工
    的頭像 發(fā)表于 08-20 14:21 ?856次閱讀

    模型推理顯存和計算量估計方法研究

    ,為實(shí)際應(yīng)用提供了有益的參考。 未來,我們將繼續(xù)深入研究大模型推理的優(yōu)化方法,以降低顯存和計算資源的需求,提高深度學(xué)習(xí)模型在實(shí)際應(yīng)用中的性能。
    發(fā)表于 07-03 19:43

    歐洲借助NVIDIA Nemotron優(yōu)化主權(quán)大語言模型

    NVIDIA 正攜手歐洲和中東的模型構(gòu)建商與云提供商,共同優(yōu)化主權(quán)大語言模型 (LLM),加速該地區(qū)各行業(yè)采用企業(yè)級 AI。
    的頭像 發(fā)表于 06-12 15:42 ?1175次閱讀

    NVIDIA GTC巴黎亮點(diǎn):全新Cosmos Predict-2世界基礎(chǔ)模型與CARLA集成加速智能汽車訓(xùn)練

    。這種向使用大模型的過渡大大增加了對用于訓(xùn)練、測試和驗(yàn)證的高質(zhì)量、基于物理學(xué)傳感器數(shù)據(jù)的需求。 為加速下一代輔助駕駛架構(gòu)的開發(fā),NVIDIA 發(fā)布了?NVIDIA Cosmos Pre
    的頭像 發(fā)表于 06-12 10:00 ?1091次閱讀

    AI原生架構(gòu)升級:RAKsmart服務(wù)器在超大規(guī)模模型訓(xùn)練中的算力突破

    近年來,隨著千億級參數(shù)模型的崛起,AI訓(xùn)練對算力的需求呈現(xiàn)指數(shù)級增長。傳統(tǒng)服務(wù)器架構(gòu)在應(yīng)對分布式訓(xùn)練、高并發(fā)計算和顯存優(yōu)化等場景時逐漸顯露瓶頸。而RAKsmart為超大規(guī)模
    的頭像 發(fā)表于 04-24 09:27 ?786次閱讀

    NVIDIA技術(shù)驅(qū)動帕西尼觸覺感知與人形機(jī)器人智能突破

    感知科技實(shí)現(xiàn)了從接觸仿真、觸覺信號產(chǎn)生、仿真數(shù)據(jù)生成,再到觸覺模態(tài)模型訓(xùn)練的全流程 GPU 加速,提升標(biāo)定和訓(xùn)練效率 100 倍,完成觸覺傳感器的批量標(biāo)定和觸覺模態(tài)規(guī)?;瘜?shí)機(jī)部署。
    的頭像 發(fā)表于 04-21 09:15 ?1416次閱讀

    百度飛槳框架3.0正式版發(fā)布

    模型訓(xùn)練成本高?推理效率低?硬件適配難? 4月1日,百度發(fā)布 飛槳框架3.0正式版 !五大特性專為大模型設(shè)計。 作為大
    的頭像 發(fā)表于 04-02 19:03 ?1183次閱讀
    百度飛槳<b class='flag-5'>框架</b>3.0正式版發(fā)布