91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

實(shí)踐經(jīng)驗(yàn):在深度學(xué)習(xí)中喂飽GPU

DPVg_AI_era ? 來(lái)源:lq ? 2019-09-13 17:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

深度學(xué)習(xí)模型訓(xùn)練是不是大力出奇跡,顯卡越多越好?非也,沒有512張顯卡,也可以通過一些小技巧優(yōu)化模型訓(xùn)練。本文作者分析了他的實(shí)踐經(jīng)驗(yàn)。

前段時(shí)間訓(xùn)練了不少模型,發(fā)現(xiàn)并不是大力出奇跡,顯卡越多越好,有時(shí)候 1 張 v100 和 2 張 v100 可能沒有什么區(qū)別,后來(lái)發(fā)現(xiàn)瓶頸在其他地方,寫篇文章來(lái)總結(jié)一下自己用過的一些小 trick,最后的效果就是在 cifar 上面跑 vgg 的時(shí)間從一天縮到了一個(gè)小時(shí),imagenet 上跑 mobilenet 模型只需要 2 分鐘每個(gè) epoch。(文章末尾有代碼啦)

先說(shuō)下跑 cifar 的時(shí)候,如果只是用 torchvision 的 dataloader (用最常見的 padding/crop/flip 做數(shù)據(jù)增強(qiáng)) 會(huì)很慢,大概速度是下面這種,600 個(gè) epoch 差不多要一天多才能跑完,并且速度時(shí)快時(shí)慢很不穩(wěn)定。

我最初以為是 IO 的原因,于是掛載了一塊內(nèi)存盤,改了一下路徑接著用 torchvision 的 dataloader 來(lái)跑,速度基本沒啥變化。。。

然后打開資源使用率看了下發(fā)現(xiàn) cpu 使用率幾乎已經(jīng)滿了(只能申請(qǐng) 2cpu 和一張 v100...),但是 gpu 的使用率非常低,這基本可以確定瓶頸是在 cpu 的處理速度上了。

后來(lái)查了一些資料發(fā)現(xiàn) nvidia 有一個(gè)庫(kù)叫 dali 可以用 gpu 來(lái)做圖像的前處理,從輸入,解碼到 transform 的一整套 pipeline,看了下常見的操作比如 pad/crop 之類的還挺全的,并且支持 pytorch/caffe/mxnet 等各種框架。

可惜在官方文檔中沒找到 cifar 的 pipeline,于是自己照著 imagenet 的版本寫了個(gè),最初踩了一些坑(為了省事找了個(gè) cifar 的 jpeg 版本來(lái)解碼,發(fā)現(xiàn)精度掉得很多還找不到原因,還得從 cifar 的二進(jìn)制文件來(lái)讀?。?,最后總歸是達(dá)到了同樣的精度,再來(lái)看一看速度和資源使用率,總時(shí)間直接從一天縮短為一小時(shí),并且 gpu 使用率高了很多。

再說(shuō)下 imagenet 的訓(xùn)練加速,最初也是把整個(gè)數(shù)據(jù)集拷到了掛載的內(nèi)存盤里面(160g 大概夠用了,從拷貝到解壓完成大概 10 分鐘不到),發(fā)現(xiàn)同樣用 torchvision 的 dataloader 訓(xùn)練很不穩(wěn)定,于是直接照搬了 dali 官方的 dataloader 過來(lái),速度也是同樣起飛 hhhh(找不到當(dāng)時(shí)訓(xùn)練的圖片了),然后再配合 apex 的混合精度和分布式訓(xùn)練,申請(qǐng) 4 塊 v100,gpu 使用率可以穩(wěn)定在 95 以上,8 塊 v100 可以穩(wěn)定在 90 以上,最后直接上到 16 張 v100 和 32cpu,大概也能穩(wěn)定在 85 左右(看資源使用率發(fā)現(xiàn) cpu 到頂了,不然估計(jì) gpu 也能到 95 以上),16 塊 v100 在 ImageNet 上跑 mobilenet 只需要 2 分鐘每個(gè) epoch。

寫的 dataloader 放到了 github 上,我測(cè)試的精度跟 torchvision 的版本差不多,不過速度上會(huì)比 torchvision 快很多,后面有空也會(huì)寫一些其他常用 dataloader 的 dali 版本放上去。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5206

    瀏覽量

    135586
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26215
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124448

原文標(biāo)題:在深度學(xué)習(xí)中喂飽GPU

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    HarmonyOS首登微信公開課,分享跨平臺(tái)適配與體驗(yàn)提升實(shí)踐經(jīng)驗(yàn)

    近日,2026微信公開課PRO廣州舉行。值得關(guān)注的是,HarmonyOS開發(fā)專家首次以官方分享嘉賓身份亮相開發(fā)者專場(chǎng),并圍繞“跨平臺(tái)適配與體驗(yàn)提升”這一主題,深入剖析了微信小程序跨平臺(tái)開發(fā)
    的頭像 發(fā)表于 02-02 09:22 ?353次閱讀
    HarmonyOS首登微信公開課,分享跨平臺(tái)適配與體驗(yàn)提升<b class='flag-5'>實(shí)踐經(jīng)驗(yàn)</b>

    BNC連接器射頻線應(yīng)用經(jīng)驗(yàn)分享

    本文結(jié)合工程實(shí)踐經(jīng)驗(yàn),分享了BNC連接器與射頻線安裝、壓接、焊接、線材管理及防護(hù)方面的實(shí)用技巧,幫助工程師提升射頻系統(tǒng)的可靠性與信號(hào)穩(wěn)定性。
    的頭像 發(fā)表于 01-12 11:43 ?194次閱讀
    BNC連接器射頻線應(yīng)用<b class='flag-5'>經(jīng)驗(yàn)</b>分享

    【社區(qū)之星】劉壯壯——方案不是在對(duì)抗完善的,而是溝通優(yōu)化的

    的理解和實(shí)踐經(jīng)驗(yàn)。專注于低壓領(lǐng)域的方波與FOC(磁場(chǎng)定向控制)算法的設(shè)計(jì)、實(shí)現(xiàn)與優(yōu)化;精通無(wú)刷電機(jī)多種控制策略及其電動(dòng)工具的應(yīng)用,對(duì)電機(jī)參數(shù)辨識(shí)、效率優(yōu)化及轉(zhuǎn)矩控
    的頭像 發(fā)表于 12-30 08:06 ?2611次閱讀
    【社區(qū)之星】劉壯壯——方案不是在對(duì)抗<b class='flag-5'>中</b>完善的,而是<b class='flag-5'>在</b>溝通<b class='flag-5'>中</b>優(yōu)化的

    【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實(shí)戰(zhàn)課(11大系列課程,共5000+分鐘)

    深度學(xué)習(xí)技能的工程師起薪18K,3-5年經(jīng)驗(yàn)可達(dá)35-50K ? 行業(yè)分布:電子制造(38%)、汽車零部件(22%)、半導(dǎo)體(19%)、醫(yī)療器械(11%)為主要就業(yè)領(lǐng)域 本次團(tuán)購(gòu)?fù)ㄟ^整合11大系列課程
    發(fā)表于 12-04 09:28

    汽車GPU是如何使用的?

    。我們從GPU汽車的應(yīng)用場(chǎng)景及其具體需求出發(fā),深入探討了GPU對(duì)汽車行業(yè)發(fā)展的影響,并對(duì)未來(lái)趨勢(shì)提出了關(guān)鍵判斷。1、GPU計(jì)算在汽車
    的頭像 發(fā)表于 12-03 14:45 ?9596次閱讀
    汽車<b class='flag-5'>中</b>的<b class='flag-5'>GPU</b>是如何使用的?

    天合儲(chǔ)能在系統(tǒng)安全設(shè)計(jì)與防爆防控方面的實(shí)踐經(jīng)驗(yàn)

    最新一期 BESS Basics 系列訪談,天合儲(chǔ)能北美產(chǎn)品負(fù)責(zé)人 Mike Watson 深入探討了基于《NFPA 69 標(biāo)準(zhǔn)》的儲(chǔ)能系統(tǒng)爆炸風(fēng)險(xiǎn)綜合防控策略,分享了天合儲(chǔ)能在系統(tǒng)安全設(shè)計(jì)與防爆防控方面的實(shí)踐經(jīng)驗(yàn)與技術(shù)思考
    的頭像 發(fā)表于 10-29 09:27 ?593次閱讀

    自動(dòng)駕駛Transformer大模型會(huì)取代深度學(xué)習(xí)嗎?

    持續(xù)討論。特別是自動(dòng)駕駛領(lǐng)域,部分廠商開始嘗試將多模態(tài)大模型(MLLM)引入到感知、規(guī)劃與決策系統(tǒng),引發(fā)了“傳統(tǒng)深度學(xué)習(xí)是否已過時(shí)”的激烈爭(zhēng)論。然而,從技術(shù)原理、算力成本、安全需求與實(shí)際落地路徑等維度來(lái)看,Transforme
    的頭像 發(fā)表于 08-13 09:15 ?4223次閱讀
    自動(dòng)駕駛<b class='flag-5'>中</b>Transformer大模型會(huì)取代<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>嗎?

    FPGA機(jī)器學(xué)習(xí)的具體應(yīng)用

    ,越來(lái)越多地被應(yīng)用于機(jī)器學(xué)習(xí)任務(wù)。本文將探討 FPGA 機(jī)器學(xué)習(xí)的應(yīng)用,特別是加速神經(jīng)網(wǎng)
    的頭像 發(fā)表于 07-16 15:34 ?2928次閱讀

    智芯公司與華北電力大學(xué)RISC-V MCU聯(lián)合實(shí)踐教學(xué)基地成立

    近日智芯公司與華北電力大學(xué)共建的“RISC-V MCU聯(lián)合實(shí)踐教學(xué)基地”和“大學(xué)生實(shí)習(xí)實(shí)踐基地”雙基地揭牌儀式在華電隆重舉行,開啟RISC-V芯片領(lǐng)域協(xié)同發(fā)展新篇章。此次合作深度融合華電的高校科研優(yōu)勢(shì)與智芯公司的企業(yè)工程
    的頭像 發(fā)表于 07-07 18:20 ?1148次閱讀

    GPS時(shí)鐘的精準(zhǔn)之道:技術(shù)原理與長(zhǎng)期穩(wěn)定運(yùn)行的實(shí)踐經(jīng)驗(yàn)

    現(xiàn)代時(shí)間同步領(lǐng)域,GPS時(shí)鐘以其高精度和可靠性成為關(guān)鍵基礎(chǔ)設(shè)施的重要組成部分。它的核心功能是通過接收衛(wèi)星信號(hào)校準(zhǔn)本地時(shí)間,確保毫秒級(jí)甚至微秒級(jí)的同步精度。然而,實(shí)際應(yīng)用,許多因素可能影響其性能。本文將從技術(shù)原理與工程實(shí)踐角度
    的頭像 發(fā)表于 06-30 14:54 ?709次閱讀
    GPS時(shí)鐘的精準(zhǔn)之道:技術(shù)原理與長(zhǎng)期穩(wěn)定運(yùn)行的<b class='flag-5'>實(shí)踐經(jīng)驗(yàn)</b>

    研華工業(yè)AI Agent的發(fā)展態(tài)勢(shì)及實(shí)踐思考

    工業(yè) 4.0 風(fēng)起云涌之際,AI Agent 產(chǎn)業(yè)化落地成為各界競(jìng)逐焦點(diǎn)。研華科技憑借深厚的行業(yè)積淀,勇于創(chuàng)新、積極探索,企業(yè)級(jí)工業(yè) AI Agent 方面積累了扎實(shí)的實(shí)踐經(jīng)驗(yàn)。本期訪談邀請(qǐng)到研華
    的頭像 發(fā)表于 06-23 09:31 ?1080次閱讀

    GPU架構(gòu)深度解析

    GPU架構(gòu)深度解析從圖形處理到通用計(jì)算的進(jìn)化之路圖形處理單元(GPU),作為現(xiàn)代計(jì)算機(jī)不可或缺的一部分,已經(jīng)從最初的圖形渲染專用處理器,發(fā)展成為強(qiáng)大的并行計(jì)算引擎,廣泛應(yīng)用于人工智能
    的頭像 發(fā)表于 05-30 10:36 ?1892次閱讀
    <b class='flag-5'>GPU</b>架構(gòu)<b class='flag-5'>深度</b>解析

    ARM Mali GPU 深度解讀

    ARM Mali GPU 深度解讀 ARM Mali 是 Arm 公司面向移動(dòng)設(shè)備、嵌入式系統(tǒng)和基礎(chǔ)設(shè)施市場(chǎng)設(shè)計(jì)的圖形處理器(GPU)IP 核,憑借其異構(gòu)計(jì)算架構(gòu)、能效優(yōu)化和生態(tài)協(xié)同,成為全球移動(dòng)
    的頭像 發(fā)表于 05-29 10:12 ?4414次閱讀

    端子電流循環(huán)壽命試驗(yàn)機(jī)電子系統(tǒng)設(shè)計(jì)與實(shí)踐經(jīng)驗(yàn)

    一、引言 端子電流循環(huán)壽命試驗(yàn)機(jī)是評(píng)估電氣連接器、開關(guān)觸點(diǎn)等元件反復(fù)通斷電流條件下耐久性能的關(guān)鍵設(shè)備。作為電子工程師,我有幸參與了多款此類設(shè)備的研發(fā)工作,本文將分享其中的電子系統(tǒng)設(shè)計(jì)經(jīng)驗(yàn)實(shí)踐心得
    的頭像 發(fā)表于 05-15 08:58 ?667次閱讀
    端子電流循環(huán)壽命試驗(yàn)機(jī)電子系統(tǒng)設(shè)計(jì)與<b class='flag-5'>實(shí)踐經(jīng)驗(yàn)</b>

    安世半導(dǎo)體全球化發(fā)展實(shí)踐經(jīng)驗(yàn)與前瞻思考

    此前,4月4日至6日,第28屆哈佛大學(xué)中國(guó)論壇成功舉辦。聞泰科技半導(dǎo)體業(yè)務(wù)(安世半導(dǎo)體)董事長(zhǎng)兼CEO張學(xué)政受邀出席,并在“智能時(shí)代的變革與未來(lái)”分論壇上發(fā)表精彩觀點(diǎn),與行業(yè)領(lǐng)袖共同探討全球化、技術(shù)迭代與社會(huì)責(zé)任等議題,分享百年半導(dǎo)體公司全球化發(fā)展
    的頭像 發(fā)表于 04-12 14:52 ?1760次閱讀