91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPU顯存不足時(shí)的各種Trick

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:AINLP ? 作者:老宋的茶書(shū)會(huì) ? 2020-08-27 18:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前言

最近跑的模型都比較大,尤其是Bert, 這真的是難為我 1080ti 了, 在Bert的Example中,官方提供了一些 Trick 來(lái)幫助我們加速訓(xùn)練,很良心, 但感覺(jué)還不夠,于是花費(fèi)一些時(shí)間整理出一個(gè) Trick 集合,來(lái)幫助我們?cè)陲@存不足的時(shí)候來(lái)嘿嘿嘿。

本文分為兩大部分,第一部分引入一個(gè)主題:如何估計(jì)模型所需顯存, 第二個(gè)主題:GPU顯存不足時(shí)的各種 Trick 。

監(jiān)控 GPU

監(jiān)控GPU最常用的當(dāng)然是nvidia-smi,但有一個(gè)工具能夠更好的展示信息:gpustat。

nvidia-smi watch --color -n1 gpustat -cpu # 動(dòng)態(tài)事實(shí)監(jiān)控GPU

推薦在配置文件中配置別名,反正我每次gpu一下,信息就全出來(lái)了,很方便。

下面有同學(xué)推薦nvtop, 我簡(jiǎn)單試了試,的確挺好的,展現(xiàn)出現(xiàn)的信息很豐富 , 推薦試一試。

如何估計(jì)模型顯存 [1]

首先,思考一個(gè)問(wèn)題:模型中的哪些東西占據(jù)了我的顯存,咋就動(dòng)不動(dòng)就out of memory?

其實(shí)一個(gè)模型所占用的顯存主要包含兩部分:模型自身的參數(shù), 優(yōu)化器參數(shù), 模型每層的輸入輸出。

模型自身參數(shù)

模型自身的參數(shù)指的就是各個(gè)網(wǎng)絡(luò)層的 Weight 和Bias,這部分顯存在模型加載完成之后就會(huì)被占用, 注意到的是,有些層是有參數(shù)的,如CNN, RNN;而有些層是無(wú)參數(shù)的, 如激活層, 池化層等。

從Pytorch 的角度來(lái)說(shuō),當(dāng)你執(zhí)行model.to(device)是, 你的模型就加載完畢,此時(shí)你的模型就已經(jīng)加載完成了。

對(duì)于Pytorch來(lái)說(shuō),模型參數(shù)存儲(chǔ)在model.parameters()中,因此,我們不需要自己計(jì)算,完全可以通過(guò)Pytorh來(lái)直接打?。?/p>

print('Model {} : params: {:4f}M'.format(model._get_name(), para * type_size / 1000 / 1000))

優(yōu)化器參數(shù)

優(yōu)化器參數(shù)指的是模型在優(yōu)化過(guò)程即反向傳播中所產(chǎn)生的參數(shù), 這部分參數(shù)主要指的就是 dw, 即梯度,在SGD中, 其大小與參數(shù)一樣, 因此在優(yōu)化期間, 模型的參數(shù)所占用的顯存會(huì)翻倍。

值得注意的是,不同的優(yōu)化器其所需保存的優(yōu)化參數(shù)不同, 對(duì)于 Adam, 由于其還需要保存其余參數(shù), 模型的參數(shù)量會(huì)在優(yōu)化區(qū)間翻 4 倍。

模型每層的輸入輸出

首先,第一點(diǎn)是輸入數(shù)據(jù)所占用的顯存, 這部分所占用的顯存其實(shí)并不大,這是因?yàn)槲覀兺捎玫鞯姆绞阶x取數(shù)據(jù),這意味著我們其實(shí)并不是一次性的將所有數(shù)據(jù)讀入顯存,而這保證每次輸入所占用的顯存與整個(gè)網(wǎng)絡(luò)參數(shù)來(lái)比是微不足道的。

然后,在模型進(jìn)行前向傳播與反向傳播時(shí), 一個(gè)很重要的事情就是計(jì)算并保存每一層的輸出以及其對(duì)應(yīng)的梯度, 這意味著,這也占據(jù)了很大一部分顯存。

最后,模型輸出的顯存占用可以總結(jié)為:

每一層的輸出(多維數(shù)組), 其對(duì)應(yīng)的梯度, 值得注意的是,模型輸出不需要存儲(chǔ)相應(yīng)的動(dòng)量信息(即此處如果使用Adam, 模型輸出的參數(shù)量依舊是2倍而不是4倍, 我也不知道為啥??求大佬指教)

輸出的顯存占用與 batch size 成正比

那么有沒(méi)有辦法通過(guò)Pytorch來(lái)計(jì)算這部分參數(shù)量呢?答案是有的,我們可以假設(shè)一個(gè)batch的樣本,然后通過(guò)model.modules()來(lái)對(duì)每一層進(jìn)行遍歷,獲得每一層的輸出shape, 然后就能夠獲得一個(gè)batch的數(shù)據(jù)的輸出參數(shù)量。[2]

所有的顯存占用計(jì)算

顯存占用 = 模型自身參數(shù) × n + batch size × 輸出參數(shù)量 × 2 + 一個(gè)batch的輸入數(shù)據(jù)(往往忽略)

其中,n是根據(jù)優(yōu)化算法來(lái)定的,如果選用SGD, 則 n = 2, 如果選擇Adam, 則 n = 4.

一個(gè)很棒的實(shí)現(xiàn)如下, 我懶得再重新寫(xiě)了,你可以根據(jù)這個(gè)改一改,問(wèn)題不大。

# 模型顯存占用監(jiān)測(cè)函數(shù) # model:輸入的模型 # input:實(shí)際中需要輸入的Tensor變量 # type_size 默認(rèn)為 4 默認(rèn)類型為 float32 def modelsize(model, input, type_size=4): para = sum([np.prod(list(p.size())) for p in model.parameters()]) print('Model {} : params: {:4f}M'.format(model._get_name(), para * type_size / 1000 / 1000)) input_ = input.clone() input_.requires_grad_(requires_grad=False) mods = list(model.modules()) out_sizes = [] for i in range(1, len(mods)): m = mods[i] if isinstance(m, nn.ReLU): if m.inplace: continue out = m(input_) out_sizes.append(np.array(out.size())) input_ = out total_nums = 0 for i in range(len(out_sizes)): s = out_sizes[i] nums = np.prod(np.array(s)) total_nums += nums print('Model {} : intermedite variables: {:3f} M (without backward)' .format(model._get_name(), total_nums * type_size / 1000 / 1000)) print('Model {} : intermedite variables: {:3f} M (with backward)' .format(model._get_name(), total_nums * type_size*2 / 1000 / 1000))

GPU 顯存不足時(shí)的Trick [2]

此處不討論多GPU, 分布式計(jì)算等情況,只討論一些常規(guī)的 Trick, 會(huì)不定時(shí)進(jìn)行更新。

降低batch size

這應(yīng)該很好理解,適當(dāng)降低batch size, 則模型每層的輸入輸出就會(huì)成線性減少, 效果相當(dāng)明顯。這里需要注意的一點(diǎn)是, dev batch size的調(diào)整也有助于降低顯存, 同時(shí),不要將 dev 或 test 的batch size 設(shè)置為樣本集長(zhǎng)度, 我最近就干了這個(gè)傻事,害的我調(diào)試了一天才調(diào)出來(lái)是這個(gè)問(wèn)題。

選擇更小的數(shù)據(jù)類型

一般默認(rèn)情況下, 整個(gè)網(wǎng)絡(luò)中采用的是32位的浮點(diǎn)數(shù),如果切換到 16位的浮點(diǎn)數(shù),其顯存占用量將接近呈倍數(shù)遞減。

精簡(jiǎn)模型

在設(shè)計(jì)模型時(shí),適當(dāng)?shù)木?jiǎn)模型,如原來(lái)兩層的LSTM轉(zhuǎn)為一層;原來(lái)使用LSTM, 現(xiàn)在使用GRU;減少卷積核數(shù)量;盡量少的使用 Linear 等。

數(shù)據(jù)角度

對(duì)于文本數(shù)據(jù)來(lái)說(shuō),長(zhǎng)序列所帶來(lái)的參數(shù)量是呈線性增加的, 適當(dāng)?shù)目s小序列長(zhǎng)度可以極大的降低參數(shù)量。

total_loss

考慮到 loss 本身是一個(gè)包含梯度信息的 tensor, 因此,正確的求損失和的方式為:

total_loss += loss.item()

釋放不需要的張量和變量

采用del釋放你不再需要的張量和變量,這也要求我們?cè)趯?xiě)模型的時(shí)候注意變量的使用,不要隨心所欲,漫天飛舞。

Relu 的 inplace 參數(shù)

激活函數(shù)Relu()有一個(gè)默認(rèn)參數(shù)inplace,默認(rèn)為Flase, 當(dāng)設(shè)置為T(mén)rue的時(shí)候,我們?cè)谕ㄟ^(guò)relu()計(jì)算得到的新值不會(huì)占用新的空間而是直接覆蓋原來(lái)的值,這表示設(shè)為T(mén)rue, 可以節(jié)省一部分顯存。

梯度累積

首先, 要了解一些Pytorch的基本知識(shí):

在Pytorch 中,當(dāng)我們執(zhí)行l(wèi)oss.backward()時(shí), 會(huì)為每個(gè)參數(shù)計(jì)算梯度,并將其存儲(chǔ)在 paramter.grad 中, 注意到,paramter.grad是一個(gè)張量, 其會(huì)累加每次計(jì)算得到的梯度。

在 Pytorch 中, 只有調(diào)用optimizer.step()時(shí)才會(huì)進(jìn)行梯度下降更新網(wǎng)絡(luò)參數(shù)。

我們知道, batch size 與占用顯存息息相關(guān),但有時(shí)候我們的batch size 又不能設(shè)置的太小,這咋辦呢?答案就是梯度累加。

我們先來(lái)看看傳統(tǒng)訓(xùn)練:

for i,(feature,target) in enumerate(train_loader): outputs = model(feature) # 前向傳播 loss = criterion(outputs,target) # 計(jì)算損失 optimizer.zero_grad() # 清空梯度 loss.backward() # 計(jì)算梯度 optimizer.step() # 反向傳播, 更新網(wǎng)絡(luò)參數(shù)

而加入梯度累加之后,代碼是這樣的:

for i,(features,target) in enumerate(train_loader): outputs = model(images) # 前向傳播 loss = criterion(outputs,target) # 計(jì)算損失 loss = loss/accumulation_steps # 可選,如果損失要在訓(xùn)練樣本上取平均 loss.backward() # 計(jì)算梯度 if((i+1)%accumulation_steps)==0: optimizer.step() # 反向傳播,更新網(wǎng)絡(luò)參數(shù) optimizer.zero_grad() # 清空梯度

其實(shí),這塊有兩種理解方式(受到評(píng)論區(qū)同學(xué)啟發(fā)), 我談?wù)勗?bert 里面最常見(jiàn)的那種。

比較來(lái)看, 我們發(fā)現(xiàn),梯度累加本質(zhì)上就是累加accumulation_steps個(gè)batchsize/accumulationsteps的梯度, 再根據(jù)累加的梯度來(lái)更新網(wǎng)絡(luò)參數(shù),以達(dá)到真實(shí)梯度類似batch_size的效果。在使用時(shí),需要注意適當(dāng)?shù)臄U(kuò)大學(xué)習(xí)率。

更詳細(xì)來(lái)說(shuō), 我們假設(shè)batch size = 4,accumulation steps = 8, 梯度積累首先在前向傳播的時(shí)候以batch_size=4來(lái)計(jì)算梯度,但是不更新參數(shù),將梯度積累下來(lái),直到我們計(jì)算了accumulation steps個(gè) batch, 我們?cè)俑聟?shù)。其實(shí)本質(zhì)上就等價(jià)于:

真正的 batch_size = batch_size * accumulation_steps

梯度積累能很大程度上緩解GPU顯存不足的問(wèn)題,推薦使用。

在Bert的倉(cāng)庫(kù)中,就使用了這個(gè)Trick,十分實(shí)用,簡(jiǎn)直是我們這種乞丐實(shí)驗(yàn)室的良心Trick。

梯度檢查點(diǎn)

這個(gè)Trick我沒(méi)用過(guò),畢竟模型還沒(méi)有那么那么大。

等我用過(guò)再更新吧,先把坑挖下。

最后

哎, 如果你看完了這篇文章,就說(shuō)明了一件事情:小伙子,你卡也不夠啊。哎, 乞丐實(shí)驗(yàn)室不配深度學(xué)習(xí),哭了。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7335

    瀏覽量

    94803
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5196

    瀏覽量

    135510
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3756

    瀏覽量

    52125

原文標(biāo)題:【經(jīng)驗(yàn)分享】GPU 顯存不足怎么辦?

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    大模型推理服務(wù)的彈性部署與GPU調(diào)度方案

    7B 模型 FP16 推理需要約 14GB 顯存,70B 模型需要 140GB+,KV Cache 隨并發(fā)數(shù)線性增長(zhǎng),顯存碎片化導(dǎo)致實(shí)際利用率不足 60%。
    的頭像 發(fā)表于 03-03 09:29 ?135次閱讀

    曦望發(fā)布新一代推理GPU芯片,單位Token推理成本降低90%

    電子發(fā)燒友網(wǎng)報(bào)道 1月27日,國(guó)產(chǎn)GPU廠商曦望(Sunrise)重磅發(fā)布新一代推理GPU芯片——啟望S3。這是曦望在近一年累計(jì)完成約30億元戰(zhàn)略融資后的首次集中公開(kāi)亮相。2025年,曦望芯片交付量
    的頭像 發(fā)表于 01-28 17:38 ?8700次閱讀

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評(píng)測(cè)

    需求進(jìn)行了優(yōu)化設(shè)計(jì)。無(wú)論是 CUDA 核心計(jì)算性能、實(shí)時(shí)渲染能力,還是 AI 推理效率,亦或顯存帶寬與容量的顯著提升,均使得新一代 RTX PRO 5000 Blackwell GPU 能夠輕松應(yīng)對(duì)更復(fù)雜、更嚴(yán)苛的工作負(fù)載。
    的頭像 發(fā)表于 01-06 09:51 ?2411次閱讀
    NVIDIA RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的深度評(píng)測(cè)

    顯存讀寫(xiě)沖突造成花屏解決方案

    方案1、分配兩個(gè)獨(dú)立顯存區(qū)——A和B,顯示A區(qū)時(shí)寫(xiě)B(tài)區(qū)準(zhǔn)備,完成B區(qū)準(zhǔn)備后,設(shè)定控制器顯示B區(qū),交替循環(huán)更新 方案2、客戶MCU 的TFT控制器資源是否有類似的 “TE”信號(hào)可以監(jiān)測(cè),根據(jù)“TE
    發(fā)表于 12-29 09:07

    汽車中的GPU是如何使用的?

    (HMI)的發(fā)展尤為迅猛。隨著電子電氣架構(gòu)(EEA)的集中化,車輛對(duì)高性能計(jì)算能力的需求顯著提升,GPU(圖形處理單元)的靈活性、可擴(kuò)展性以及高效并行計(jì)算能力,使其成為支持這些創(chuàng)新應(yīng)用的核心組件
    的頭像 發(fā)表于 12-03 14:45 ?9585次閱讀
    汽車中的<b class='flag-5'>GPU</b>是如何使用的?

    借助NVIDIA Megatron-Core大模型訓(xùn)練框架提高顯存使用效率

    隨著模型規(guī)模邁入百億、千億甚至萬(wàn)億參數(shù)級(jí)別,如何在有限顯存中“塞下”訓(xùn)練任務(wù),對(duì)研發(fā)和運(yùn)維團(tuán)隊(duì)都是巨大挑戰(zhàn)。NVIDIA Megatron-Core 作為流行的大模型訓(xùn)練框架,提供了靈活高效的并行化
    的頭像 發(fā)表于 10-21 10:55 ?1162次閱讀
    借助NVIDIA Megatron-Core大模型訓(xùn)練框架提高<b class='flag-5'>顯存</b>使用效率

    如何看懂GPU架構(gòu)?一分鐘帶你了解GPU參數(shù)指標(biāo)

    GPU架構(gòu)參數(shù)如CUDA核心數(shù)、顯存帶寬、TensorTFLOPS、互聯(lián)方式等,并非“冰冷的數(shù)字”,而是直接關(guān)系設(shè)備能否滿足需求、如何發(fā)揮最大價(jià)值、是否避免資源浪費(fèi)等問(wèn)題的核心要素。本篇文章將全面
    的頭像 發(fā)表于 10-09 09:28 ?1143次閱讀
    如何看懂<b class='flag-5'>GPU</b>架構(gòu)?一分鐘帶你了解<b class='flag-5'>GPU</b>參數(shù)指標(biāo)

    國(guó)產(chǎn)全功能GPU新標(biāo)桿:芯動(dòng)科技“風(fēng)華3號(hào)”重塑技術(shù)邊界

    革命者”三大標(biāo)簽,在AI計(jì)算、圖形渲染、行業(yè)應(yīng)用等領(lǐng)域?qū)崿F(xiàn)全面突破,標(biāo)志著我國(guó)在高性能GPU領(lǐng)域邁入國(guó)際先進(jìn)行列。 ? ? 大模型算力天花板:112GB顯存重構(gòu)AI訓(xùn)練范式 ? “風(fēng)華3號(hào)”最引人注目的突破在于其112GB超大容量高帶寬
    的頭像 發(fā)表于 09-26 15:43 ?7734次閱讀
    國(guó)產(chǎn)全功能<b class='flag-5'>GPU</b>新標(biāo)桿:芯動(dòng)科技“風(fēng)華3號(hào)”重塑技術(shù)邊界

    aicube的n卡gpu索引該如何添加?

    請(qǐng)問(wèn)有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經(jīng)安裝了cuda和cudnn,在全局的py里添加了torch,能夠調(diào)用gpu,當(dāng)還是只能看到默認(rèn)的gpu0,顯示不了gpu1
    發(fā)表于 07-25 08:18

    大模型推理顯存和計(jì)算量估計(jì)方法研究

    方法。 一、引言 大模型推理是指在已知輸入數(shù)據(jù)的情況下,通過(guò)深度學(xué)習(xí)模型進(jìn)行預(yù)測(cè)或分類的過(guò)程。然而,大模型的推理過(guò)程對(duì)顯存和計(jì)算資源的需求較高,這給實(shí)際應(yīng)用帶來(lái)了以下挑戰(zhàn): 顯存不足:大模型在推理
    發(fā)表于 07-03 19:43

    算力時(shí)代,你的GPU選對(duì)了嗎?三張表看清專業(yè)卡與消費(fèi)卡的本質(zhì)差異

    顯存大小只是冰山一角,單/雙精度算力才是決定GPU真實(shí)性能的關(guān)鍵。一、顯存越大越好?警惕選購(gòu)陷阱許多用戶在挑選GPU時(shí),第一眼總盯著顯存容量
    的頭像 發(fā)表于 06-20 18:32 ?3039次閱讀
    算力時(shí)代,你的<b class='flag-5'>GPU</b>選對(duì)了嗎?三張表看清專業(yè)卡與消費(fèi)卡的本質(zhì)差異

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】+NVlink技術(shù)從應(yīng)用到原理

    自家GPU 提出的多卡算力互連技術(shù),是早期為了應(yīng)對(duì)深度學(xué)習(xí)對(duì)超高算力需求而單卡算力不足的局面的解決方案,當(dāng)然這都是官方用來(lái)吹牛的話術(shù)。我自己在2019年左右第一次接觸到多卡交火的GIY玩法(從學(xué)生到
    發(fā)表于 06-18 19:31

    GPU架構(gòu)深度解析

    GPU架構(gòu)深度解析從圖形處理到通用計(jì)算的進(jìn)化之路圖形處理單元(GPU),作為現(xiàn)代計(jì)算機(jī)中不可或缺的一部分,已經(jīng)從最初的圖形渲染專用處理器,發(fā)展成為強(qiáng)大的并行計(jì)算引擎,廣泛應(yīng)用于人工智能、科學(xué)計(jì)算
    的頭像 發(fā)表于 05-30 10:36 ?1873次閱讀
    <b class='flag-5'>GPU</b>架構(gòu)深度解析

    可以手動(dòng)構(gòu)建imx-gpu-viv嗎?

    使用 imx-gpu-viv-6.4.3.p4.2.aarch64.bin。 https://www.nxp.com/lgfiles/NMG/MAD/YOCTO//imx-gpu-viv-6.4.3.p4.2-aarch64.bin 我需要
    發(fā)表于 03-28 06:35