91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA TensorRT的數(shù)據(jù)格式定義

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:Ken He ? 2022-05-20 14:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

TensorRT 支持不同的數(shù)據(jù)格式。有兩個方面需要考慮:數(shù)據(jù)類型和布局。

數(shù)據(jù)類型格式

數(shù)據(jù)類型是每個單獨值的表示。它的大小決定了取值范圍和表示的精度,分別是FP32(32位浮點,或單精度),F(xiàn)P16(16位浮點或半精度),INT32(32位整數(shù)表示),和 INT8(8 位表示)。

布局格式

布局格式確定存儲值的順序。通常,batch 維度是最左邊的維度,其他維度指的是每個數(shù)據(jù)項的方面,例如圖像中的C是通道, H是高度, W是寬度。忽略總是在這些之前的批量大小, C 、 H和W通常被排序為CHW (參見圖 1 )或HWC (參見圖 2 )。

圖1. CHW的布局格式:圖像分為HxW矩陣,每個通道一個,矩陣按順序存儲;通道的所有值都是連續(xù)存儲的。

poYBAGKHOmuAG3jrAABI1Auz45s159.png

圖2. HWC的布局格式:圖像存儲為單個HxW矩陣,其值實際上是 C 元組,每個通道都有一個值;一個點(像素)的所有值都是連續(xù)存儲的。

pYYBAGKHOmSAF4_4AABE_ZAr4MY310.png

為了實現(xiàn)更快的計算,定義了更多格式以將通道值打包在一起并使用降低的精度。因此,TensorRT 還支持NC / 2HW2和NHWC8等格式。

在NC / 2HW2 ( TensorFormat::kCHW2 ) 中,通道值對在每個HxW矩陣中打包在一起(在奇數(shù)通道的情況下為空值)。結(jié)果是一種格式,其中? C/2 ? HxW矩陣的值是兩個連續(xù)通道的值對(參見圖 3 );請注意,如果它們在同一對中,則此排序?qū)⒕S度交錯為具有步長1的通道的值,否則將步長為 2xHxW 。

圖 3. 一對通道值在每個HxW矩陣中打包在一起。結(jié)果是一種格式,其中[C/2] HxW矩陣的值是兩個連續(xù)通道的值對

poYBAGKHOl6AAMv6AABJ1rtP6Z8262.png

在NHWC8 ( TensorFormat::kHWC8 ) 中, HxW矩陣的條目包括所有通道的值。此外,這些值被打包在? C/8 ? 8 元組中,并且C向上舍入到最接近的 8 倍數(shù)。

在這種NHWC8格式中, HxW矩陣的條目包括所有通道的值。

其他TensorFormat遵循與前面提到的TensorFormat::kCHW2和TensorFormat::kHWC8類似的規(guī)則。

關(guān)于作者

Ken He 是 NVIDIA 企業(yè)級開發(fā)者社區(qū)經(jīng)理 & 高級講師,擁有多年的 GPU人工智能開發(fā)經(jīng)驗。自 2017 年加入 NVIDIA 開發(fā)者社區(qū)以來,完成過上百場培訓(xùn),幫助上萬個開發(fā)者了解人工智能和 GPU 編程開發(fā)。在計算機視覺,高性能計算領(lǐng)域完成過多個獨立項目。并且,在機器人無人機領(lǐng)域,有過豐富的研發(fā)經(jīng)驗。對于圖像識別,目標(biāo)的檢測與跟蹤完成過多種解決方案。曾經(jīng)參與 GPU 版氣象模式GRAPES,是其主要研發(fā)者。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    31073

    瀏覽量

    222176
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5592

    瀏覽量

    109719
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50094

    瀏覽量

    265278
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    BLE 藍牙空中報文格式與解析(廣播包)

    BLE 廣播包數(shù)據(jù)格式解析說明 ...... 矜辰所致
    的頭像 發(fā)表于 01-04 17:28 ?1858次閱讀
    BLE 藍牙空中報文<b class='flag-5'>格式</b>與解析(廣播包)

    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮存儲功能支持的數(shù)據(jù)格式可以修改嗎?

    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮存儲功能支持的數(shù)據(jù)格式 部分可修改 ,具體取決于格式類型(數(shù)據(jù)文件格式 / 壓縮算法格式)與廠家設(shè)計,核心結(jié)論
    的頭像 發(fā)表于 12-11 16:39 ?1088次閱讀
    電能質(zhì)量在線監(jiān)測裝置的<b class='flag-5'>數(shù)據(jù)</b>壓縮存儲功能支持的<b class='flag-5'>數(shù)據(jù)格式</b>可以修改嗎?

    電能質(zhì)量在線監(jiān)測裝置支持哪些數(shù)據(jù)格式的離線查看?

    電能質(zhì)量在線監(jiān)測裝置支持的離線數(shù)據(jù)格式主要分為 標(biāo)準(zhǔn)格式 和 通用格式 兩大類,其中標(biāo)準(zhǔn)格式是行業(yè)主流,通用格式則方便日常
    的頭像 發(fā)表于 12-05 17:19 ?1301次閱讀
    電能質(zhì)量在線監(jiān)測裝置支持哪些<b class='flag-5'>數(shù)據(jù)格式</b>的離線查看?

    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)推送協(xié)議是否可以自定義配置?

    現(xiàn)代電能質(zhì)量在線監(jiān)測裝置普遍支持 協(xié)議參數(shù)自定義配置 和 協(xié)議組合靈活適配 ,用戶可根據(jù)實際需求調(diào)整通信參數(shù)、映射數(shù)據(jù)格式,甚至通過第三方工具實現(xiàn)非標(biāo)準(zhǔn)協(xié)議的兼容。以下是具體實現(xiàn)方式及技術(shù)細節(jié): 一
    的頭像 發(fā)表于 11-12 13:58 ?408次閱讀
    電能質(zhì)量在線監(jiān)測裝置的<b class='flag-5'>數(shù)據(jù)</b>推送協(xié)議是否可以自<b class='flag-5'>定義</b>配置?

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺上的推理性能瓶頸。為實現(xiàn)這一目標(biāo),其構(gòu)建了多維度的核心實現(xiàn)路徑:一方面,針對需
    的頭像 發(fā)表于 10-21 11:04 ?1165次閱讀

    TensorRT-LLM的大規(guī)模專家并行架構(gòu)設(shè)計

    之前文章已介紹引入大規(guī)模 EP 的初衷,本篇將繼續(xù)深入介紹 TensorRT-LLM 的大規(guī)模專家并行架構(gòu)設(shè)計與創(chuàng)新實現(xiàn)。
    的頭像 發(fā)表于 09-23 14:42 ?1103次閱讀
    <b class='flag-5'>TensorRT</b>-LLM的大規(guī)模專家并行架構(gòu)設(shè)計

    DeepSeek R1 MTP在TensorRT-LLM中的實現(xiàn)與優(yōu)化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀(jì)錄,Multi-Token Prediction (MTP) 實現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4447次閱讀
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT</b>-LLM中的實現(xiàn)與優(yōu)化

    淺談電子工程師困惑多年的EDA行業(yè)的標(biāo)準(zhǔn)格式

    數(shù)據(jù)格式還是非常豐富的。比如*.dxf,*.step,*.prt,*.stl......格式特點STEP(.STP/.STEP)ISO標(biāo)準(zhǔn),支持精確幾何,裝配結(jié)
    的頭像 發(fā)表于 08-23 12:34 ?680次閱讀
    淺談電子工程師困惑多年的EDA行業(yè)的標(biāo)準(zhǔn)<b class='flag-5'>格式</b>

    PLC串口自由協(xié)議通信概述

    串口自由協(xié)議通信是一種靈活的串行通信方式。在該模式下,開發(fā)者無需遵循特定標(biāo)準(zhǔn)協(xié)議,可根據(jù)實際需求自由定義數(shù)據(jù)格式與交互規(guī)則。
    的頭像 發(fā)表于 08-07 09:15 ?2150次閱讀
    PLC串口自由協(xié)議通信概述

    NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開放下載

    NVIDIA RTX 與 NVIDIA TensorRT 現(xiàn)已加速 Black Forest Labs 的最新圖像生成和編輯模型;此外,Gemma 3n 現(xiàn)可借助 RTX 和 NVIDIA
    的頭像 發(fā)表于 07-16 09:16 ?2046次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2184次閱讀

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀(jì)錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場景中的性能紀(jì)錄:在 GTC 2025
    的頭像 發(fā)表于 07-02 19:31 ?3291次閱讀
    <b class='flag-5'>NVIDIA</b> Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀(jì)錄

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?1871次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS應(yīng)用的最佳實踐

    NVIDIA Blackwell數(shù)據(jù)手冊與NVIDIA Blackwell架構(gòu)技術(shù)解析

    NVIDIA Blackwell數(shù)據(jù)手冊與NVIDIA Blackwell 架構(gòu)技術(shù)解析
    的頭像 發(fā)表于 03-20 17:19 ?2450次閱讀

    LPC55S28修改音頻數(shù)據(jù)格式后USB Aduio類異常的原因?

    您好 NXP 前輩,我已經(jīng)更改了 LPC55S28 官方 SDK 上的 USB 音頻數(shù)據(jù)格式。 我的主要問題是修改音頻流格式類型描述符。 我的想法是將 USB Aduio 每個通道的數(shù)據(jù)字節(jié)數(shù)從 2
    發(fā)表于 03-20 07:33