91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用NVIDIA模型分析儀最大限度地提高深度學(xué)習(xí)的推理性能

電子設(shè)計(jì) ? 來源: 電子設(shè)計(jì) ? 作者: 電子設(shè)計(jì) ? 2020-10-21 19:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

你已經(jīng)建立了你的深度學(xué)習(xí)推理模型并將它們部署到 NVIDIA Triton Inference Serve 最大化模型性能。 你如何進(jìn)一步加快你的模型的運(yùn)行速度? 進(jìn)入 NVIDIA模型分析器 ,一個(gè)收集模型計(jì)算需求的工具。

沒有這些信息,在理解在GPU上運(yùn)行多少模型方面就存在知識(shí)差距。 通過收集冷熱儲(chǔ)存需求,您可以使用它們通知模型的調(diào)度,以獲得幾個(gè)好處:

最大化模型吞吐量—確保放置在每個(gè)GPU上的模型總和不超過可用內(nèi)存和GPU利用率的特定閾值,例如100%。這樣可以最大限度地提高硬件的吞吐量。

優(yōu)化硬件使用—檢查GPU內(nèi)存需求,以便在較少硬件上運(yùn)行更多型號。您可以使用此數(shù)據(jù)來確定每個(gè)GPU可以加載的最大模型數(shù),而不是優(yōu)化吞吐量,從而減少所需的硬件,或者權(quán)衡吞吐量的權(quán)衡。

提高了可靠性—通過了解在GPU上加載的模型不會(huì)超出其能力,消除內(nèi)存不足錯(cuò)誤。

此外,還有兩個(gè)關(guān)鍵的非調(diào)度好處:

有效的模式—比較和對比不同的模型,將計(jì)算需求作為一個(gè)額外的數(shù)據(jù)點(diǎn)來衡量模型的性能。這有助于生成更輕量級的模型,并減少推理所需的內(nèi)存量。

更好的硬件尺寸—使用內(nèi)存需求確定運(yùn)行模型所需的確切硬件數(shù)量。

總之,理解推理模型的計(jì)算要求提供了從模型創(chuàng)建和硬件大小到模型的可靠、高效運(yùn)行的大量好處。 下面我們來看看ModelAnalyzer,看看它如何為最高性能的推理解決方案做出貢獻(xiàn)。

獲取模型分析器Docker容器

在使用推理服務(wù)器容器之前,必須安裝一些軟件,如Docker。 有關(guān)更多信息,請參見 安裝Docker和NVIDIA Docke 一節(jié)進(jìn)去 NVIDIA Docker:GPU服務(wù)器應(yīng)用程序部署容易.

模型分析器作為Helm圖表、Docker容器或獨(dú)立命令行接口運(yùn)行。 對于本教程,您可以從源代碼the構(gòu)建Docker容器 triton-inference-server/model_analyzer Github回購。

git clone https://github.com/triton-inference-server/model_analyzer.git
cd model_analyzer
docker build -t memory-analyzer

要為您的模型運(yùn)行容器,請確保端口8000、8001和8002可用。 然后,運(yùn)行以下命令,替換大寫參數(shù):

docker run -v /var/run/docker.sock:/var/run/docker.sock /
-v /ABSOLUTE/PATH/TO/MODELS:ABSOLUTE/PATH/TO/MODELS /
-v /ABSOLUTE/PATH/TO/EXPORT/DIRECTORY:/results --net=host /
memory-analyzer:ANALYZER-VERSION /
--batch BATCH-SIZES /
--concurrency CONCURRENCY-VALUES /
--model-names MODEL-NAMES /
--triton-version TRITON-VERSION /
--model-folder /ABSOLUTE/PATH/TO/MODELS /
--export --export-path /results/

這里有一個(gè)示例命令供參考:

docker run -v /var/run/docker.sock:/var/run/docker.sock /
-v /home/user/models: /home/user/models /
-v /home/user/results:/results --net=host /
memory-analyzer:latest /
--batch 1,2,4 /
--concurrency 1,2,4 /
--model-names chest_xray,covid19_xray/
--triton-version 20.02-py3 /
--model-folder /home/user/models /
--export --export-path /results/

容器完成后,每個(gè)模型、批處理大小和并發(fā)值的度量將導(dǎo)出到您選擇的目錄中。 信息是通過在系統(tǒng)運(yùn)行時(shí)收集度量來收集的,因此在一個(gè)孤立的GPU或僅運(yùn)行模型分析器的系統(tǒng)上運(yùn)行它是理想的。

使用計(jì)算需求進(jìn)行優(yōu)化

下面是如何使用這些度量來優(yōu)化系統(tǒng)性能。 我們討論了兩個(gè)使用醫(yī)學(xué)推斷模型的案例研究:

第一個(gè)案例研究探討了如何將間歇性運(yùn)行的系統(tǒng)的硬件最小化,例如需要在最小硬件上運(yùn)行許多模型的低成本醫(yī)療提供商。

第二個(gè)案例研究探討了使用最少的硬件來最大化這些相同模型的吞吐量,例如在一致的基礎(chǔ)上運(yùn)行許多模型的大型急診室。

這兩個(gè)案例研究都是手動(dòng)完成這些步驟的,因此我們最后討論了將模型元數(shù)據(jù)納入自動(dòng)調(diào)度的下一步。 對于這兩項(xiàng)研究,為了簡化分析,我們使用總結(jié)的數(shù)據(jù),對每個(gè)模型使用2的模型批處理大小和4的并發(fā)。

馬克斯記憶用法(%) 馬克斯GPU使用(%) 最大GPU內(nèi)存(MB)
0 9 309

表1。 只運(yùn)行TritonServer的內(nèi)存使用。

Model Batch 流率 馬克斯記憶用法(%) 馬克斯GPU使用(%) 最大GPU內(nèi)存(MB)
classification_breast 2 4 1381.6推斷/秒 1 23 1461
classification_chest 2 4 172.4推斷/秒 11 56 5035
分類_瑪利亞 2 4 586推斷/秒 2 43 1851
節(jié)段_CT_Colon_Tumo 2 4 33.6推斷/秒 60 60 6955
segmentation_ct_胰腺 2 4 29.6推斷/秒 51 79 6955
節(jié)段_CT_脾 2 4 32推斷/秒 54 54 6955
肝段 2 4 28推斷/秒 53 76 11051
分段_MRI_腦_腫瘤 2 4 4推斷/秒 48 48 8579
分段_MRI_海馬 2 4 30.8推斷/秒 52 52 6955

表2。 每個(gè)運(yùn)行模型的內(nèi)存使用情況。

通常,有幾種潛在的方法:

每個(gè)GPU放置一個(gè)模型。 這意味著這9種型號的9個(gè)GPU。 例如,如果要在DGX上運(yùn)行,這種方法將需要兩個(gè)不能充分利用的DGX。

把所有的模型放在一個(gè)GPU上。 這只需要一個(gè)GPU,但會(huì)導(dǎo)致“內(nèi)存不足”錯(cuò)誤。

在每個(gè)GPU上放置任意數(shù)量的模型。 這涉及到以前方法的問題。 如果每個(gè)GPU放置兩個(gè)模型,則只需要5個(gè)GPU。 然而,記憶錯(cuò)誤仍然是一個(gè)風(fēng)險(xiǎn),例如,如果你把肝臟分割和腦腫瘤分割模型放在一個(gè)GPU上。 同時(shí),其他GPU沒有得到充分或最佳的利用,例如當(dāng)您將乳房和胸部x射線分類放在一個(gè)GPU上時(shí)。

另一種選擇是什么?

案例研究:盡量減少間歇系統(tǒng)的硬件

想象一下,你有一個(gè)系統(tǒng),你知道它只會(huì)斷斷續(xù)續(xù)地出現(xiàn),所以你想在最少的硬件上安裝盡可能多的模型。 在這種情況下,GPU內(nèi)存是瓶頸。 您可以為Triton Server減去309MB的內(nèi)存,以單獨(dú)獲得模型的GPU內(nèi)存,然后查看在GPU上的一個(gè)服務(wù)器上可以容納多少模型。

表3顯示,可以匹配的模型只使用四個(gè)16GB GPU與以下配置,這協(xié)調(diào)了最小的GPU可能為這些模型,需要53GB的內(nèi)存。

GPU # 模特兒典型 帶有服務(wù)器的GPU內(nèi)存(MB
1 分類_胸部,節(jié)段_CT_結(jié)腸_腫瘤 11681
2 classification_breast,segmentation_live 12203
3 分類_瘧疾,節(jié)段_MRI_海馬,節(jié)段_CT_脾 15143
4 節(jié)段_CT_胰腺,節(jié)段_MRI_腦_腫瘤 15225

表3。 最小硬件的示例配置。

使用這種配置,您的GPU數(shù)量最少,同時(shí)保證沒有內(nèi)存錯(cuò)誤。 這是一個(gè)很好的設(shè)置,用于間歇性地運(yùn)行模型,當(dāng)吞吐量不需要達(dá)到最大值時(shí)。

案例研究:最大限度地提高一致的、關(guān)鍵的系統(tǒng)的性能

對于此設(shè)置,最大吞吐量是優(yōu)先級,因此必須確保吞吐量不會(huì)因?yàn)樗心J降牟l(fā)負(fù)載而下降。 查看所有指標(biāo),以確保內(nèi)存利用率、GPU利用率和GPU內(nèi)存總量不超過機(jī)器的計(jì)算資源。

As total GPU utilization adds up to 491% and would therefore require a minimum of five GPUs, compared to total memory utilization (332%, or four GPUs) or total GPU memory (52 GB, or four GPUs), GPU utilization is the bottleneck and a great place to start.

表4假設(shè)GPU利用率閾值為100%,并顯示了一個(gè)只有6個(gè)16GB GPU的示例配置。

GPU # 模特兒典型 內(nèi)存使用(%) GPU使用(%) 帶有服務(wù)器的GPU內(nèi)存(MB
1 節(jié)段_CT_Colon_Tumo 60 60 6955
2 肝段 54 76 11051
3 classification_chest,classification_breast 12 79 2939
4 segmentation_ct_pancreas 51 79 6955
5 級化_級,細(xì)分_級 56 97 8497
6 Segmentation_MRI_海馬,segmentation_mri_brain_tumo 100 100 15225

表4。 最大吞吐量的示例配置。

這與每個(gè)模型的批處理大小和并發(fā)值相同。 通過調(diào)整,使用不同的批處理大小和并發(fā)值來最大化吞吐量,內(nèi)存和GPU利用率會(huì)有更高的變化,從而節(jié)省更多的資源。 此外,如果您的系統(tǒng)可以犧牲一些吞吐量,您可以使用更少的硬件,只需占用內(nèi)存或GPU利用率的100。

進(jìn)一步用例:自動(dòng)調(diào)度

雖然這兩個(gè)案例研究顯示了優(yōu)化系統(tǒng)運(yùn)行的手工操作,但最有可能的用例是將這些數(shù)據(jù)自動(dòng)納入調(diào)度。 調(diào)度規(guī)則將放在計(jì)算需求之上,例如在模型運(yùn)行時(shí)不要使用超過80%的GPU或80%的GPU內(nèi)存。 這樣的規(guī)則是你的模式,模型的使用計(jì)算元數(shù)據(jù)收集。

有了計(jì)算機(jī)需求,您就可以確定什么對您最重要,并從硬件中獲得最大的性能。

結(jié)局推論

使用Triton Server工具M(jìn)odel Analyzer,您可以輕松高效地描述您的模型,使您能夠最大限度地提高硬件的性能。 無論您使用命令行接口、Docker容器還是Helm圖表,ModelAnalyzer都會(huì)收集模型的計(jì)算需求,允許您最大化性能并最小化運(yùn)行模型所需的硬件。

正如將9個(gè)GPU減少到4個(gè)或6個(gè)GPU的案例研究所顯示的,將這些數(shù)據(jù)合并到您的調(diào)度中是非常強(qiáng)大的。 對數(shù)據(jù)的進(jìn)一步探索提供了對批處理大小和并發(fā)如何影響模型的洞察,使您能夠使用Triton Server以最大的性能運(yùn)行模型。

Model Analyzer 是開源的,在GitHub上可用。

關(guān)于作者

關(guān)于大衛(wèi)·亞斯特雷姆斯基
大衛(wèi)·亞斯特雷姆斯基是NVIDIA的軟件實(shí)習(xí)生,從事克拉拉部署工作。 他是一名碩士學(xué)位學(xué)生,在賓夕法尼亞大學(xué)學(xué)習(xí)計(jì)算機(jī)科學(xué),對醫(yī)療AI充滿熱情,未來人人都能獲得高質(zhì)量的醫(yī)療保健。


審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 分析儀
    +關(guān)注

    關(guān)注

    0

    文章

    1763

    瀏覽量

    54726
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5594

    瀏覽量

    109779
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124405
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    通過NVIDIA Jetson AGX Thor實(shí)現(xiàn)7倍生成式AI性能

    Jetson Thor 平臺(tái)還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構(gòu)的新 NVFP4 格式,有助于進(jìn)一步優(yōu)化推理性能。該平臺(tái)同時(shí)支持推測解碼等新技術(shù),為在邊緣端加速生成式 AI 工作負(fù)載提供了新的途徑。
    的頭像 發(fā)表于 10-29 16:53 ?1434次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)
    的頭像 發(fā)表于 10-21 11:04 ?1182次閱讀

    利用NVIDIA DOCA GPUNetIO技術(shù)提升MoE模型推理性能

    在第三屆 NVIDIA DPU 中國黑客松競賽中,我們見證了開發(fā)者與 NVIDIA 網(wǎng)絡(luò)技術(shù)的深度碰撞。在 23 支參賽隊(duì)伍中,有 5 支隊(duì)伍脫穎而出,展現(xiàn)了在 AI 網(wǎng)絡(luò)、存儲(chǔ)和安全等領(lǐng)域的創(chuàng)新突破。
    的頭像 發(fā)表于 09-23 15:25 ?1032次閱讀

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團(tuán)隊(duì)為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理
    的頭像 發(fā)表于 09-23 15:19 ?1279次閱讀

    使用NVIDIA NVLink Fusion技術(shù)提升AI推理性能

    本文詳細(xì)闡述了 NVIDIA NVLink Fusion 如何借助高效可擴(kuò)展的 NVIDIA NVLink scale-up 架構(gòu)技術(shù),滿足日益復(fù)雜的 AI 模型不斷增長的需求。
    的頭像 發(fā)表于 09-23 14:45 ?934次閱讀
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion技術(shù)提升AI<b class='flag-5'>推理性能</b>

    同步熱分析儀的聯(lián)用技術(shù)的應(yīng)用

    同步熱分析儀是一款可同時(shí)測量樣品的tg和dsc信號的熱分析儀器,被廣泛應(yīng)用在材料科學(xué)、高分子工程師、醫(yī)藥生物、能源等領(lǐng)域。隨著同步熱分析儀性能技術(shù)的不斷提升,同步熱
    的頭像 發(fā)表于 08-28 16:04 ?816次閱讀
    同步熱<b class='flag-5'>分析儀</b>的聯(lián)用技術(shù)的應(yīng)用

    利用矢量網(wǎng)絡(luò)分析儀測試大動(dòng)態(tài)范圍微波器件的幾種方法

    利用矢量網(wǎng)絡(luò)分析儀對微波器件進(jìn)行測試時(shí),矢量網(wǎng)絡(luò)分析儀的測試動(dòng)態(tài)范圍將影響被測微波器件(DUT)的測量范圍、測量精度和測量速度。只有矢量網(wǎng)絡(luò)分析儀的測試動(dòng)態(tài)范圍大于被測微波器件的動(dòng)態(tài)范
    的頭像 發(fā)表于 08-27 17:33 ?1651次閱讀
    <b class='flag-5'>利用</b>矢量網(wǎng)絡(luò)<b class='flag-5'>分析儀</b>測試大動(dòng)態(tài)范圍微波器件的幾種方法

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1793次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理模型</b>發(fā)布

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIANVIDIA Blackwell 架構(gòu)上優(yōu)化了這兩款全新的開放權(quán)重模型并實(shí)現(xiàn)了推理性能加速,在
    的頭像 發(fā)表于 08-15 20:34 ?2309次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣加速OpenAI gpt-oss<b class='flag-5'>模型</b>部署,實(shí)現(xiàn)150萬TPS<b class='flag-5'>推理</b>

    功率分析儀最大峰值因數(shù)的真實(shí)含義

    某些功率分析儀將可測量峰值因數(shù)作為重要特點(diǎn)進(jìn)行宣傳。例如:某高精度功率分析儀標(biāo)稱最大可測量峰值因數(shù)為6,另一高精度功率分析儀則標(biāo)稱最大可測量
    的頭像 發(fā)表于 08-04 18:11 ?1018次閱讀
    功率<b class='flag-5'>分析儀</b><b class='flag-5'>最大</b>峰值因數(shù)的真實(shí)含義

    PCIe協(xié)議分析儀能測試哪些設(shè)備?

    :提升數(shù)據(jù)中心的整體效率,降低CPU負(fù)載。 四、異構(gòu)計(jì)算與擴(kuò)展設(shè)備 多GPU系統(tǒng) 測試場景:利用PCIe協(xié)議分析儀模擬高負(fù)載的GPU間通信,測試PCIe交換機(jī)的性能和穩(wěn)定性。 應(yīng)用價(jià)值:確保復(fù)雜多GPU
    發(fā)表于 07-25 14:09

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    網(wǎng)絡(luò)智能診斷平臺(tái)。通過對私有化網(wǎng)絡(luò)數(shù)據(jù)的定向訓(xùn)練,信而泰打造了高性能、高可靠性的網(wǎng)絡(luò)診斷模型,顯著提升了AI輔助診斷的精準(zhǔn)度與實(shí)用性。該方案實(shí)現(xiàn)了網(wǎng)絡(luò)全流量深度解析能力與AI智能推理
    發(fā)表于 07-16 15:29

    模型推理顯存和計(jì)算量估計(jì)方法研究

    ,為實(shí)際應(yīng)用提供了有益的參考。 未來,我們將繼續(xù)深入研究大模型推理的優(yōu)化方法,以降低顯存和計(jì)算資源的需求,提高深度學(xué)習(xí)模型在實(shí)際應(yīng)用中的
    發(fā)表于 07-03 19:43

    是德N9917A FieldFox手持分析儀 N9917B便攜式分析儀

    電壓表。 N9917A FieldFox 手持式微波分析儀 主要特性和功能 18 GHz 最大頻率 *隨身攜帶功能齊全的手持式分析儀:標(biāo)準(zhǔn)型號包括電纜和天線分析儀 *添加 VNA、頻譜
    的頭像 發(fā)表于 05-07 16:58 ?1129次閱讀

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開源庫加速并擴(kuò)展AI推理模型

    NVIDIA Dynamo 提高推理性能,同時(shí)降低了擴(kuò)展測試時(shí)計(jì)算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的
    的頭像 發(fā)表于 03-20 15:03 ?1240次閱讀