問題
最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時候,沒有問題,過一會再訓(xùn)練出現(xiàn)非??D,使用nvidia-smi查看發(fā)現(xiàn),顯示GPU的風(fēng)扇和電源報錯:

解決方案
自動風(fēng)扇控制
在nvidia論壇有人給出了解決方案,即問題的根源可能是風(fēng)扇轉(zhuǎn)速不足使GPU過熱導(dǎo)致的。
首先開啟GPU的persistent mode,再設(shè)置風(fēng)扇的功率,重啟即可生效。其中250代表的是風(fēng)扇的最大功率限制,可以將其設(shè)置為最大,這樣過熱的時候風(fēng)扇就會自動加大功率。
sudo nvidia-smi -pm 1
sudo nvidia-smi -pl 250
手動風(fēng)扇控制
此外,還可以將GPU風(fēng)扇的手動風(fēng)速控制打開。方法為:
首先,使用sudo nvidia-xconfig --enable-all-gpus命令打開所有g(shù)pu在xserver中的設(shè)置(不使用sudo可能無權(quán)限寫入新配置)
然后修改配置文件:sudo vim /etc/X11/xorg.conf,在其中的DeviceSection中加入Option “Coolbits” “4”如下圖所示:

如果機器上有多塊gpu,在第一步命令執(zhí)行后,會在這個xorg.conf中出現(xiàn)多個DeviceSection,都依次執(zhí)行第三步操作
重啟機器后,命令行執(zhí)行nvidia-settings,會打開設(shè)置界面,在其中的會顯示所有GPU的設(shè)置選項,每個GPU控制選項下面都有一個Thermal settings,進入后打開enable GPU Fan Setting即可對風(fēng)扇進行手動風(fēng)速調(diào)整了。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5594瀏覽量
109760 -
gpu
+關(guān)注
關(guān)注
28文章
5194瀏覽量
135496
發(fā)布評論請先 登錄
借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程
揭秘TEE深度休眠喚醒“低概率報錯”:從概念到解決方案的全解析
NVIDIA RTX PRO 5000 Blackwell GPU的深度評測
NVIDIA RTX PRO 4000 Blackwell GPU性能測試
在Python中借助NVIDIA CUDA Tile簡化GPU編程
NVIDIA RTX PRO 2000 Blackwell GPU性能測試
上位機報錯2033問題處理方案
NVIDIA Isaac Lab多GPU多節(jié)點訓(xùn)練指南
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
NVIDIA桌面GPU系列擴展新產(chǎn)品
亞馬遜基于NVIDIA技術(shù)實現(xiàn)創(chuàng)新型制造解決方案
Ansys使用NVIDIA技術(shù)優(yōu)化CFD仿真解決方案
風(fēng)扇燈PCBA方案開發(fā)原理及介紹
Nvidia GPU的風(fēng)扇和電源報錯解決方案
評論