91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Triton 系列文章(11):模型類別與調(diào)度器-1

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:未知 ? 2023-01-11 06:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在 Triton 推理服務(wù)器的使用中,模型(model)類別與調(diào)度器(scheduler)、批量處理器(batcher)類型的搭配,是整個管理機(jī)制中最重要的環(huán)節(jié),三者之間根據(jù)實(shí)際計(jì)算資源與使用場景的要求去進(jìn)行調(diào)配,這是整個 Triton 服務(wù)器中比較復(fù)雜的部分。

在模型類別中有“無狀態(tài)(stateless)”、“有狀態(tài)(stateful)”“集成(ensemble)”三種,調(diào)度器方面則有“標(biāo)準(zhǔn)調(diào)度器(default scheduler)”“集成調(diào)度器(ensemble scheduler)”兩種,而標(biāo)準(zhǔn)調(diào)度器下面還有“動態(tài)批量處理器(dynamic batcher)”“序列批量處理器(sequence batcher)”兩種批量處理器。

模型類別與調(diào)度器/批量處理器之間存在一些關(guān)聯(lián)性,以下整理出一個簡單的配合表格,提供大家參考:

類別

調(diào)度器

批量處理器

使用場景

無狀態(tài)

標(biāo)準(zhǔn)調(diào)度器

動態(tài)批量處理器

面向各自獨(dú)立的推理模型

有狀態(tài)

標(biāo)準(zhǔn)調(diào)度器

序列批量處理器

處理存在交互關(guān)系的推理模型組

集成

集成調(diào)度器

創(chuàng)建復(fù)雜的工作流水線

接下去就要為這幾個管理機(jī)制的組合進(jìn)行說明,由于內(nèi)容較多并且不均衡,特別是“有狀態(tài)模型”與“集成模型”兩部分的使用是相對復(fù)雜的,因此這些組合會分為三篇文章來進(jìn)行較為深入的說明。

1. 無狀態(tài)(Stateless)模式:

這是 Triton 默認(rèn)的模型模式,最主要的要求就是“模型所維護(hù)的狀態(tài)不跨越推理請求”,也就是不存在與其他推理請求有任何交互關(guān)系,大部分處于最末端的獨(dú)立推理模型,都適合使用這種模式,例如車牌檢測最末端的將圖像識別成符號的推理、為車輛識別顏色/種類/廠牌的圖像分類等,還有 RNN 以及具有內(nèi)部內(nèi)存的類似模型,也可以是無狀態(tài)的。

2. 有狀態(tài)(Stateful)模式:

很多提供云服務(wù)的系統(tǒng),需要具備同時(shí)接受多個推理請求去形成一系列推理的能力,這些推理必須路由到某些特定模型實(shí)例中,以便正確更新模型維護(hù)的狀態(tài)。此外,該模型可能要求推理服務(wù)器提供控制信號,例如指示序列的開始和結(jié)束。

Triton 服務(wù)器提供動態(tài)(dynamic)與序列(sequence)兩種批量處理器(batcher),其中序列批量處理器必須用于這種有狀態(tài)模式,因?yàn)樾蛄兄械乃型评碚埱蠖急宦酚傻酵粋€模型實(shí)例,以便模型能夠正確地維護(hù)狀態(tài)。

序列批量處理程序還需要與模型相互傳遞信息,以指示序列的開始、結(jié)束、具有可執(zhí)行推理請求的時(shí)間,以及序列的關(guān)聯(lián)編號(ID)。當(dāng)對有狀態(tài)模型進(jìn)行推理請求時(shí),客戶端應(yīng)用程序必須為序列中的所有請求提供相同的關(guān)聯(lián)編號,并且還必須標(biāo)記序列的開始和結(jié)束。

下面是這種模式的控制行為有“控制輸入”“隱式狀態(tài)管理”“調(diào)度策略”三個部分,本文后面先說明控制輸入的內(nèi)容,另外兩個部分在下篇文章內(nèi)講解。

(1) 控制輸入(control inputs)

為了使有狀態(tài)模型能夠與序列批處理程序一起正確運(yùn)行,模型通常必須接受 Triton 用于與模型通信的一個或多個控制輸入張量。

模型配置的sequence_batching里的control_input部分,指示模型如何公開序列批處理程序應(yīng)用于這些控件的張量。所有控件都是可選的,下面是模型配置的一部分,顯示了所有可用控制信號的示例配置:

05204e62-9136-11ed-bfe3-dac502259ad0.png

  • 開始(start):

這個輸入張量在配置中使用“CONTROL_SEQUENCE_START”指定,上面配置表明模型有一個名為“START”的輸入張量,其數(shù)據(jù)類型為 32 位浮點(diǎn)數(shù),序列批量處理程序?qū)⒃趯δP蛨?zhí)行推理時(shí)定義此張量。

START 輸入張量必須是一維的,大小等于批量大小,張量中的每個元素指示相應(yīng)批槽中的序列是否開始。上面配置中“fp32_false_true”表示,當(dāng)張量元素等于 0 時(shí)為“false(不開始)”、等于 1 時(shí)為“ture(開始)”

  • 結(jié)束(End):

結(jié)束輸入張量在配置中使用“CONTROL_SEQUENCE_END”指定,上面配置表明模型有一個名為“END”的輸入張量,具有 32 位浮點(diǎn)數(shù)據(jù)類型,序列批處理程序?qū)⒃趯δP蛨?zhí)行推理時(shí)定義此張量。

END 輸入張量必須是一維的,大小等于批量大小,張量中的每個元素指示相應(yīng)批槽中的序列是否開始。上面配置中“fp32_false_true”表示,當(dāng)張量元素等于 0 時(shí)為“false(不結(jié)束)”、等于 1 時(shí)為“ture(結(jié)束)”。

  • 準(zhǔn)備就緒(Ready):

就緒輸入張量在配置中使用“CONTROL_SEQUENCE_READY”指定,上面配置表明模型有一個名為“READY”的輸入張量,其數(shù)據(jù)類型為 32 位浮點(diǎn)數(shù),序列批處理程序?qū)⒃趯δP蛨?zhí)行推理時(shí)定義此張量。

READY 輸入張量必須是一維的,大小等于批量大小,張量中的每個元素指示相應(yīng)批槽中的序列是否開始。上面配置中“fp32_false_true”表示,當(dāng)張量元素等于 0 時(shí)為“false(未就緒)”、等于1時(shí)為“ture(就緒)”。

  • 關(guān)聯(lián)編號(Correlation ID):

關(guān)聯(lián)編號輸入張量在配置中使用“CONTROL_SEQUENCE_CORRID”指定,上面置表明模型有一個名為“CORRID”的輸入張量,其數(shù)據(jù)類型為無符號 64 位整數(shù),序列批處理程序?qū)⒃趯δP蛨?zhí)行推理時(shí)定義此張量。

CORRID 張量必須是一維的,大小等于批量大小,張量中的每個元素表示相應(yīng)批槽中序列的相關(guān)編號。

(2) 隱式狀態(tài)管理(implicit State Management)

這種方式允許有狀態(tài)模型將其狀態(tài)存儲在 Triton 服務(wù)器中。當(dāng)使用隱式狀態(tài)時(shí),有狀態(tài)模型不需要在模型內(nèi)部存儲推理所需的狀態(tài)。不過隱式狀態(tài)管理需要后端(backend)支持。目前只有 onnxruntime_backend 和 tensorrt_backend 支持隱式狀態(tài)。

下面是模型配置的一部分,在sequence_batching配置中的 state 部分,就是用于指示該模型正在使用隱式狀態(tài):

sequence_batching {
  state  [
    {
       input_name: "INPUT_STATE"
       output_name: "OUTPUT_STATE"
       data_type: TYPE_INT32
      dims:  [ -1 ]
    }
  ]
}

這里做簡單的說明:

  • 字段說明:

  • input_name 字段:指定將包含輸入狀態(tài)的輸入張量的名稱;
  • output_name 字段:描述由包含輸出狀態(tài)的模型生成的輸出張量的名稱;
  • dims 字段:指定狀態(tài)張量的維度。

  • 執(zhí)行要點(diǎn):

  • 序列中第 i 個請求中模型提供的輸出狀態(tài),將用作第 i+1 個請求中的輸入狀態(tài);
  • 當(dāng) dims 字段包含可變大小的維度時(shí),輸入狀態(tài)和輸出狀態(tài)的尺度不必匹配;
  • 出于調(diào)試目的,客戶端可以請求輸出狀態(tài)。為了實(shí)現(xiàn)這個目的,模型配置的輸出部分必須將輸出狀態(tài)(OUTPUT_STATE)列為模型的一個輸出;
  • 由于需要傳輸額外的張量,從客戶端請求輸出狀態(tài)可能會增加請求延遲。

默認(rèn)情況下,序列中的啟動請求包含輸入狀態(tài)的未初始化數(shù)據(jù)。模型可以使用請求中的開始標(biāo)志來檢測新序列的開始,并通過在模型輸出中提供初始狀態(tài)來初始化模型狀態(tài),如果模型狀態(tài)描述中的 dims 部分包含可變尺度,則 Triton 在開始請求時(shí)將每個可變尺寸設(shè)置為“1”。對于序列中的其他非啟動請求,輸入狀態(tài)是序列中前一個請求的輸出狀態(tài)。

對于狀態(tài)初的初始化部分,有以下兩種狀況需要調(diào)整:

  • 啟動請求時(shí):則模型將“OUTPUT_STATE”設(shè)置為等于“INPUT”張量;

  • 非啟動請求時(shí):將“OUTPUT_STATE”設(shè)為“INPUT”和“INPUT_STATE”張量之和。

除了上面討論的默認(rèn)狀態(tài)初始化之外,Triton 還提供了“從 0 開始”與“從文件導(dǎo)入”兩種初始化狀態(tài)的機(jī)制。下面提供兩種初始化的配置示例:

052f0830-9136-11ed-bfe3-dac502259ad0.png

兩個配置只有粗體部分不一樣,其余內(nèi)容都是相同的,提供讀者做個參考。

以上是關(guān)于有狀態(tài)模型的“控制輸入”與“隱式狀態(tài)管理”的使用方式,剩下的“調(diào)度策略”部分,會在后文中提供完整的說明。


原文標(biāo)題:NVIDIA Triton 系列文章(11):模型類別與調(diào)度器-1

文章出處:【微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4090

    瀏覽量

    99235

原文標(biāo)題:NVIDIA Triton 系列文章(11):模型類別與調(diào)度器-1

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    借助NVIDIA CUDA Tile IR后端推進(jìn)OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設(shè)計(jì)目標(biāo)是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限性能。CUDA Tile 的一大優(yōu)勢是允許開發(fā)者基于其構(gòu)建自定義的 DS
    的頭像 發(fā)表于 02-10 10:31 ?267次閱讀

    NVIDIA 推出 Alpamayo 系列開源 AI 模型與工具,加速安全可靠的推理型輔助駕駛汽車開發(fā)

    新聞?wù)?: l NVIDIA 率先發(fā)布為應(yīng)對輔助駕駛長尾場景挑戰(zhàn)而設(shè)計(jì)的開源視覺-語言-動作推理模型(Reasoning VLA);NVIDIA Alpamayo 系列還包含賦能輔助
    的頭像 發(fā)表于 01-06 09:40 ?393次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 Alpamayo <b class='flag-5'>系列</b>開源 AI <b class='flag-5'>模型</b>與工具,加速安全可靠的推理型輔助駕駛汽車開發(fā)

    七大基于大模型的地面測控站網(wǎng)調(diào)度分系統(tǒng)軟件的應(yīng)用與未來發(fā)展

    出的七項(xiàng)具有代表性的智能調(diào)度系統(tǒng)/項(xiàng)目。這些系統(tǒng)均深度融合大模型、AI決策與數(shù)據(jù)驅(qū)動優(yōu)化技術(shù),是航天測控體系向智能化、自主化升級的核心載體。 ? ?1.北京華盛恒輝大模型地面測控站網(wǎng)
    的頭像 發(fā)表于 12-19 15:42 ?379次閱讀

    NVIDIA 推出 Nemotron 3 系列開放模型

    新聞?wù)?● Nemotron 3 系列開放模型包含 Nano、Super 和 Ultra 三種規(guī)模,具有極高的效率和領(lǐng)先的精度,適用于代理式 AI 應(yīng)用開發(fā)。 ● Nemotron 3 Nano
    的頭像 發(fā)表于 12-16 09:27 ?638次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 Nemotron 3 <b class='flag-5'>系列</b>開放<b class='flag-5'>模型</b>

    NVIDIA攜手Mistral AI發(fā)布全新開源大語言模型系列

    全新 Mistral 3 系列涵蓋從前沿級到緊湊型模型,針對 NVIDIA 平臺進(jìn)行了優(yōu)化,助力 Mistral AI 實(shí)現(xiàn)云到邊緣分布式智能愿景。
    的頭像 發(fā)表于 12-13 09:58 ?1255次閱讀

    NVIDIA推動面向數(shù)字與物理AI的開源模型發(fā)展

    NVIDIA 發(fā)布一系列涵蓋語音、安全與輔助駕駛領(lǐng)域的全新 AI 工具,其中包括面向移動出行領(lǐng)域的行業(yè)級開源視覺-語言-動作推理模型(Reasoning VLA) NVIDIA DRI
    的頭像 發(fā)表于 12-13 09:50 ?1351次閱讀

    利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎(chǔ)模型(WFM)的更新,旨在加速物理 AI 模型的測試與驗(yàn)證數(shù)據(jù)生成。借助 NVID
    的頭像 發(fā)表于 12-01 09:25 ?1155次閱讀

    面向科學(xué)仿真的開放模型系列NVIDIA Apollo正式發(fā)布

    用于加速工業(yè)和計(jì)算工程的開放模型系列 NVIDIA Apollo 于近日舉行的 SC25 大會上正式發(fā)布。
    的頭像 發(fā)表于 11-25 11:15 ?7.4w次閱讀

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1802次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2推理<b class='flag-5'>模型</b>發(fā)布

    如何本地部署NVIDIA Cosmos Reason-1-7B模型

    近日,NVIDIA 開源其物理 AI 平臺 NVIDIA Cosmos 中的關(guān)鍵模型——NVIDIA Cosmos Reason-1-7B。
    的頭像 發(fā)表于 07-09 10:17 ?829次閱讀

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張
    的頭像 發(fā)表于 06-12 15:37 ?1906次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    在阿里云PAI上快速部署NVIDIA Cosmos Reason-1模型

    NVIDIA 近期發(fā)布了 Cosmos Reason-1 的 7B 和 56B 兩款多模態(tài)大語言模型 (MLLM),它們經(jīng)過了“物理 AI 監(jiān)督微調(diào)”和“物理 AI 強(qiáng)化學(xué)習(xí)”兩個階段的訓(xùn)練。其中
    的頭像 發(fā)表于 06-04 13:43 ?986次閱讀

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開源庫加速并擴(kuò)展AI推理模型

    Triton 推理服務(wù)的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務(wù)軟件,旨在為部署推理 AI 模型的 AI 工廠最大化其 token 收益。它協(xié)調(diào)并加速數(shù)千
    的頭像 發(fā)表于 03-20 15:03 ?1278次閱讀

    NVIDIA發(fā)布全球首個開源人形機(jī)器人基礎(chǔ)模型Isaac GR00T N1

    NVIDIA 宣布推出一系列全新技術(shù),助力人形機(jī)器人開發(fā)。其中包括全球首個開源且完全可定制的基礎(chǔ)模型NVIDIA Isaac GR00T N1
    的頭像 發(fā)表于 03-20 14:34 ?1729次閱讀

    NVIDIA 推出開放推理 AI 模型系列,助力開發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺

    月 18 日 —— ?NVIDIA 今日發(fā)布具有推理功能的開源 Llama Nemotron 模型系列,旨在為開發(fā)者和企業(yè)提供業(yè)務(wù)就緒型基礎(chǔ),助力構(gòu)建能夠獨(dú)立工作或以團(tuán)隊(duì)形式完成復(fù)雜任務(wù)的高級 AI 智能體。
    發(fā)表于 03-19 09:31 ?396次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開放推理 AI <b class='flag-5'>模型</b><b class='flag-5'>系列</b>,助力開發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺