91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Triton 系列文章(10):模型并發(fā)執(zhí)行

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:未知 ? 2023-01-05 11:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前面已經(jīng)做好了每個推理模型的基礎(chǔ)配置,基本上就能正常讓 Triton 服務(wù)器使用這些獨(dú)立模型進(jìn)行推理。接下來的重點(diǎn),就是要讓設(shè)備的計算資源盡可能地充分使用,首先第一件事情就是模型并發(fā)執(zhí)行(concurrent model execution)的調(diào)試,這是提升 Triton 服務(wù)器性能的最基本任務(wù)。

Triton 服務(wù)器支持的模型并發(fā)能力,包括一個模型并發(fā)多個推理實例,以及多個模型的多個并發(fā)實例。至于能并發(fā)多少實例?就需要根據(jù)系統(tǒng)上的硬件配置,Triton 支持純 CPU 以及多 GPU 的計算環(huán)境。

GPU 是能夠同時執(zhí)行多個工作負(fù)載的計算引擎,Triton 推理服務(wù)器通過在 GPU上同時運(yùn)行多個模型,最大限度地提高性能并減少端到端延遲,這些模型可以完全相同也可以是不同框架的不同模型,顯存大小是唯一限制并發(fā)運(yùn)行模型數(shù)量的因素。

下圖顯示了兩個計算模型 compute model 0 與 compute model 1 的示例,假設(shè) Triton 服務(wù)器當(dāng)前處于等待狀態(tài),當(dāng) request 0 與 request 1 兩個請求同時到達(dá)時,Triton 會立即將這兩個請求調(diào)度到 GPU 上(下圖左),開始并發(fā)處理這兩個模型的推理計算。

69003688-8cac-11ed-bfe3-dac502259ad0.png

認(rèn)情況下,Triton 指定系統(tǒng)中的每個可用 GPU 為每個模型提供一個實例,如果同一模型的多個請求同時到達(dá),Triton 將通過在 GPU 上一次只調(diào)度一個請求來串行化它們的執(zhí)行(上圖中)。這樣的方式在管理上是最輕松的,但是執(zhí)行效率并不好,因為計算性能并未被充分調(diào)用。

Triton 提供了一個 “instance_group” 的模型配置選項,通過在模型配置中使用這個字段,可以更改模型的執(zhí)行實例數(shù),調(diào)整每個模型的并發(fā)執(zhí)行數(shù)量。

上圖右就是在 model 1 配置文件中,添加 “instance_group” 配置,并且設(shè)置 “count: 3” 的參數(shù),這樣就允許一個 GPU 上可以并發(fā)三個實例的模型計算,如果用戶端發(fā)出超過 3 個推理請求時,則第 4 個 model 1 推理請求就必須等到前三個實例中的任一個執(zhí)行完之后,才能開始執(zhí)行。

Triton可以提供一個模型的多個實例,從而可以同時處理該模型的多條推理請求。模型配置 ModelInstanceGroup 屬性用于指定應(yīng)可用的執(zhí)行實例的數(shù)量以及應(yīng)為這些實例使用的計算資源。接下來就看看幾個標(biāo)準(zhǔn)用法:

1. 單 CPU 或 GPU 單實例

未添加任何 instance_group 參數(shù)時,表示這個模型使用默認(rèn)的配置,這時該模型可以在系統(tǒng)中可用的每個 GPU 中創(chuàng)建單個執(zhí)行實例。如果用戶端提出多個請求時,就會在 GPU 設(shè)備上按照串行方式執(zhí)行計算,如同上圖中 compute model 1 的狀態(tài)。

2. 單 CPU 或 GPU 并發(fā)多實例

實例組設(shè)置可用于在每個 GPU 上或僅在某些 GPU 上放置模型的多個執(zhí)行實例。例如,以下配置將在每個系統(tǒng) GPU 上放置模型的兩個執(zhí)行實例。如果要讓模型在一個 GPU 上執(zhí)行多個并行實例,就將以下的內(nèi)容寫入模型配置文件內(nèi),這里配置的是 2 個并發(fā)實例:

instance_group [ 
  { 
    count: 2 
    kind: KIND_GPU 
  } 
]
如果將上面配置的計算設(shè)備配置為 “kind:KIND_CPU” ,就是指定在 CPU 可以并發(fā)兩個推理計算。 3. 多 CPU 或 GPU 并發(fā)多實例 如果設(shè)備上有多個計算設(shè)備,不管是 CPU 或 GPU,都可以使用以下配置方式,為模型配置多個并發(fā)推理實例:
instance_group [ 
  { 
    count: 1 
    kind: KIND_GPU 
    gpus: [ 0 ] 
  }, 
  { 
    count: 2 
    kind: KIND_GPU 
    gpus: [ 1, 2 ] 
  } 
]
這里的內(nèi)容,表示 Triton 服務(wù)器至少啟動 3 個 GPU 計算設(shè)備,這個推理模型在編號為 0 的 GPU 上啟動 1 個并發(fā)實例,在編號為 1 與 2 的 GPU 上可以同時啟動 2 個并發(fā)實例,以此類推。 以上是 instance_group 的基礎(chǔ)配置內(nèi)容,如果要對每個 GPU 設(shè)備的計算資源進(jìn)行更深層的配置,還可以配合一個“比例限制器配置(Rate Limiter Configuration)”參數(shù)設(shè)置,對于執(zhí)行實例進(jìn)行資源的限制,以便于在不同實例直接取得計算平衡。 這個比例限制器的配置,主要有以下兩部分:
  • 資源(Reousrces)限制:
這個資源主要指的是 GPU 的顯存調(diào)用,因為數(shù)據(jù)在 CPU 與 GPU 之間的交換傳輸,經(jīng)常在整個計算環(huán)節(jié)中造成很大的影響,如果當(dāng)我們需要對同一組數(shù)據(jù)進(jìn)行不同的計算,或者計算過程中有流水線前后關(guān)系的話,那么將這些需要重復(fù)使用的數(shù)據(jù)保留在 GPU 顯存上,就能非常有效減少數(shù)據(jù)傳輸次數(shù),進(jìn)而提升計算效率。 因此我們可以對模型實例提出限制,只有當(dāng)系統(tǒng)閑置資源能滿足資源需求時,才進(jìn)行這個推理模型的計算。如果模型配置里沒有提供任何資源限制的需求,那么 Triton 服務(wù)器就認(rèn)定這個模型實例的執(zhí)行并不需要任何資源,并將在模型實例可用時立即開始執(zhí)行。 這個配置項里有三個參數(shù)內(nèi)容: (1)“name”字段:資源名稱; (2)“count”字段:組中模型實例需要運(yùn)行的資源副本數(shù); (3)“global”字段:指定資源是按設(shè)備還是在系統(tǒng)中全局共享。 下面是一個簡單的模型配置內(nèi)容的 instance_group 參數(shù)組:
instance_group [ 
  { 
    count: 2 
    kind: KIND_GPU 
gpus: [ 0 ] 
    rate_limiter { 
      resources [ 
        { 
          name: "R1" 
          count: 4 
        } 
] 
    } 
  }, 
  { 
    count: 4 
    kind: KIND_GPU 
gpus: [ 1, 2 ] 
    rate_limiter { 
      resources [        
        { 
          name: "R2" 
          global: True 
          count: 2 
        } 
      ] 
} 
  } 
]

  • 第 1 組配置:可并發(fā)執(zhí)行數(shù)量為 2,指定使用 gpu[0] 設(shè)備,需要名為 “R1” 的計算資源,其內(nèi)容是需要 2 份設(shè)備內(nèi)存的副本;

  • 第 2 組配置:可并發(fā)執(zhí)行數(shù)量為 4,指定使用 gpu[1, 2] 兩個設(shè)備,需要名為 “R2” 的計算資源,其內(nèi)容是需要 4 份全局共享內(nèi)存的副本,

這里面的并發(fā)數(shù)量與資源配置數(shù)量并不存在線性關(guān)系,開發(fā)人員必須根據(jù)模型所需要數(shù)據(jù)的張量尺度,以及 GPU 卡顯存大小去進(jìn)行調(diào)配。 Triton 允許我們指定要為推理提供的每個模型的副本數(shù)量,默認(rèn)情況下會獲得每個模型的一個副本,但可以使用 instance_group 在模型配置中指定任意數(shù)量的實例。通常擁有一個模型的兩個實例會提高性能,因為它允許 CPU 與 GPU 之間的內(nèi)存?zhèn)鬏敳僮髋c推理計算重疊。多個實例還通過允許在 GPU 上并發(fā)更多推理工作來提高GPU 利用率。
  • 優(yōu)先級(Priority)設(shè)置:
因為計算資源是有限的,因此也可以在資源配置是對其進(jìn)行優(yōu)先級的配置,如此也會影響實例進(jìn)行的先后順序。下面是一個簡單的優(yōu)先級配置示范:
instance_group [ 
  { 
    count: 1 
    kind: KIND_GPU 
    gpus: [ 0, 1, 2 ] 
    rate_limiter { 
      resources [ 
        { 
          name: "R1" 
          count: 4 
        }, 
        { 
          name: "R2" 
          global: True 
          count: 2 
        } 
      ] 
      priority: 2 
    } 
  } 
] 
上面配置組的 3 個模型實例,每個設(shè)備(0、1和2)上執(zhí)行一個,每個實例需要 4 個 “R1” 和 2 個具有全局資源的 “R2” 資源才能執(zhí)行,并將比例限制器的優(yōu)先級設(shè)置為 2。 這三個實例之間不會爭奪 “R1” 資源,因為 “R1” 對于它們自己的設(shè)備是本地的,但是會爭奪 “R2” 資源,因為它被指定為全局資源,這意味著 “R2” 在整個系統(tǒng)中共享。雖然這些實例之間不爭 “R1”,但它們將與其他模型實例爭奪 “R1“,這些模型實例在資源需求中包含 “R1” 并與它們在同一設(shè)備上運(yùn)行。 這是對所有模型的所有實例進(jìn)行優(yōu)先級排序,優(yōu)先級 2 的實例將被賦予優(yōu)先級 1 的實例 1/2 的調(diào)度機(jī)會數(shù)。 以上是關(guān)于 Triton 服務(wù)器“模型并發(fā)執(zhí)行”的基礎(chǔ)內(nèi)容,后面還有更多關(guān)于調(diào)度器(scheduler)與批量處理器(batcher)的配合內(nèi)容,能更進(jìn)一步地協(xié)助開發(fā)人員調(diào)試系統(tǒng)的總體性能。


原文標(biāo)題:NVIDIA Triton 系列文章(10):模型并發(fā)執(zhí)行

文章出處:【微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4086

    瀏覽量

    99173

原文標(biāo)題:NVIDIA Triton 系列文章(10):模型并發(fā)執(zhí)行

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    借助NVIDIA CUDA Tile IR后端推進(jìn)OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設(shè)計目標(biāo)是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限性能。CUDA Tile 的一大優(yōu)勢是允許開發(fā)者基于其構(gòu)建自定義的 DS
    的頭像 發(fā)表于 02-10 10:31 ?240次閱讀

    NVIDIA 推出 Nemotron 3 系列開放模型

    新聞?wù)?● Nemotron 3 系列開放模型包含 Nano、Super 和 Ultra 三種規(guī)模,具有極高的效率和領(lǐng)先的精度,適用于代理式 AI 應(yīng)用開發(fā)。 ● Nemotron 3 Nano
    的頭像 發(fā)表于 12-16 09:27 ?625次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 Nemotron 3 <b class='flag-5'>系列</b>開放<b class='flag-5'>模型</b>

    NVIDIA攜手Mistral AI發(fā)布全新開源大語言模型系列

    全新 Mistral 3 系列涵蓋從前沿級到緊湊型模型,針對 NVIDIA 平臺進(jìn)行了優(yōu)化,助力 Mistral AI 實現(xiàn)云到邊緣分布式智能愿景。
    的頭像 發(fā)表于 12-13 09:58 ?1237次閱讀

    NVIDIA推動面向數(shù)字與物理AI的開源模型發(fā)展

    NVIDIA 發(fā)布一系列涵蓋語音、安全與輔助駕駛領(lǐng)域的全新 AI 工具,其中包括面向移動出行領(lǐng)域的行業(yè)級開源視覺-語言-動作推理模型(Reasoning VLA) NVIDIA DRI
    的頭像 發(fā)表于 12-13 09:50 ?1331次閱讀

    利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎(chǔ)模型(WFM)的更新,旨在加速物理 AI 模型的測試與驗證數(shù)據(jù)生成。借助 NVID
    的頭像 發(fā)表于 12-01 09:25 ?1132次閱讀

    面向科學(xué)仿真的開放模型系列NVIDIA Apollo正式發(fā)布

    用于加速工業(yè)和計算工程的開放模型系列 NVIDIA Apollo 于近日舉行的 SC25 大會上正式發(fā)布。
    的頭像 發(fā)表于 11-25 11:15 ?7.4w次閱讀

    NVIDIA開源Audio2Face模型及SDK

    NVIDIA 現(xiàn)已開源 Audio2Face 模型與 SDK,讓所有游戲和 3D 應(yīng)用開發(fā)者都可以構(gòu)建并部署帶有先進(jìn)動畫的高精度角色。NVIDIA 開源 Audio2Face 的訓(xùn)練框架,任何人都可以針對特定用例對現(xiàn)有
    的頭像 發(fā)表于 10-21 11:11 ?817次閱讀
    <b class='flag-5'>NVIDIA</b>開源Audio2Face<b class='flag-5'>模型</b>及SDK

    NVIDIA 利用全新開源模型與仿真庫加速機(jī)器人研發(fā)進(jìn)程

    科研人員及開發(fā)者打造功能更強(qiáng)大、適應(yīng)性更強(qiáng)的機(jī)器人。 ? 全新的 NVIDIA Isaac GR00T 開源基礎(chǔ)模型將為機(jī)器人賦予接近人類的推理能力,使其能夠拆解復(fù)雜指令,并借助已有知識與常識執(zhí)行
    的頭像 發(fā)表于 09-30 09:52 ?3069次閱讀
    <b class='flag-5'>NVIDIA</b> 利用全新開源<b class='flag-5'>模型</b>與仿真庫加速機(jī)器人研發(fā)進(jìn)程

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1780次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2推理<b class='flag-5'>模型</b>發(fā)布

    如何本地部署NVIDIA Cosmos Reason-1-7B模型

    近日,NVIDIA 開源其物理 AI 平臺 NVIDIA Cosmos 中的關(guān)鍵模型——NVIDIA Cosmos Reason-1-7B。這款先進(jìn)的多模態(tài)大
    的頭像 發(fā)表于 07-09 10:17 ?811次閱讀

    鴻蒙5開發(fā)寶藏案例分享---應(yīng)用并發(fā)設(shè)計

    到性能調(diào)優(yōu),這些案例都是華為工程師的血淚經(jīng)驗結(jié)晶。下面用最直白的語言+代碼示例,帶你玩轉(zhuǎn)HarmonyOS并發(fā)開發(fā)! ?一、ArkTS并發(fā)模型:顛覆傳統(tǒng)的設(shè)計 傳統(tǒng)模型痛點(diǎn) graph
    發(fā)表于 06-12 16:19

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?1871次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應(yīng)用的最佳實踐

    【幸狐Omni3576邊緣計算套件試用體驗】幸狐Omni3576開發(fā)板移植YOLOV10和推理測試

    /rknn_model_zoo.git (二)下載模型 執(zhí)行如下命令下載ONNX模型用于轉(zhuǎn)換。 chmod a+x download_model.sh ./download_model.sh (三)
    發(fā)表于 05-24 12:27

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開源庫加速并擴(kuò)展AI推理模型

    Triton 推理服務(wù)器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務(wù)軟件,旨在為部署推理 AI 模型的 AI 工廠最大化其 token 收益。它協(xié)調(diào)并加速數(shù)千個 GPU 之間的推理通信,并使用分離服務(wù)將
    的頭像 發(fā)表于 03-20 15:03 ?1232次閱讀

    NVIDIA 推出開放推理 AI 模型系列,助力開發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺

    月 18 日 —— ?NVIDIA 今日發(fā)布具有推理功能的開源 Llama Nemotron 模型系列,旨在為開發(fā)者和企業(yè)提供業(yè)務(wù)就緒型基礎(chǔ),助力構(gòu)建能夠獨(dú)立工作或以團(tuán)隊形式完成復(fù)雜任務(wù)的高級 AI 智能體。
    發(fā)表于 03-19 09:31 ?390次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開放推理 AI <b class='flag-5'>模型</b><b class='flag-5'>系列</b>,助力開發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺