91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

通過(guò)稀疏支持和Transformer優(yōu)化增強(qiáng)AI推理

星星科技指導(dǎo)員 ? 來(lái)源:嵌入式計(jì)算設(shè)計(jì) ? 作者:Saumitra Jagdale ? 2022-07-10 14:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA TensorRT 8 概述

NVIDIA TensorRT 是一個(gè)高性能推理平臺(tái),對(duì)于利用 NVIDIA Tensor Core GPU 的強(qiáng)大功能至關(guān)重要。TensorRT 8 是一個(gè)軟件開(kāi)發(fā)套件,其增強(qiáng)功能旨在提高性能和準(zhǔn)確性,以應(yīng)對(duì)在邊緣和嵌入式設(shè)備中發(fā)生的越來(lái)越多的 AI 推理。它允許對(duì) TensorFlow 和 PyTorch 神經(jīng)網(wǎng)絡(luò)進(jìn)行廣泛的計(jì)算推理。

與純 CPU 平臺(tái)相比,TensorRT 可提供高達(dá) 40 倍的吞吐量,同時(shí)最大限度地減少延遲。它允許您從任何框架開(kāi)始,并在生產(chǎn)中快速優(yōu)化、驗(yàn)證和部署經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。

新版本在 NVIDIA Ampere GPU 上加入了稀疏性,可以修剪對(duì)網(wǎng)絡(luò)整體計(jì)算沒(méi)有貢獻(xiàn)的弱連接。此外,TensorRT 8 支持變壓器優(yōu)化和 BERT-Large。Transformer 優(yōu)化提高了性能,而量化感知訓(xùn)練提高了準(zhǔn)確性。

NVIDIA 的 TensorRT 8 有哪些新功能?

推理的目的是從訓(xùn)練階段盡可能多地保留準(zhǔn)確性。訓(xùn)練后的模型可以在硬件設(shè)備上運(yùn)行,以獲得客戶(hù)最低的響應(yīng)時(shí)間和最大的吞吐量。但是,盡可能精確的必要性有時(shí)可能會(huì)與邊緣可用的內(nèi)存量和吞吐量發(fā)生沖突。訓(xùn)練有素、高度準(zhǔn)確的模型可能運(yùn)行速度太慢。

因此,TensorRT 版本 8 結(jié)合了深度學(xué)習(xí)推理應(yīng)用或經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型的最新進(jìn)展,以了解數(shù)據(jù)如何影響響??應(yīng)。它使用兩個(gè)主要功能將語(yǔ)言查詢(xún)推理時(shí)間減少一半:

NVIDIA 安培架構(gòu)的稀疏性

深度神經(jīng)網(wǎng)絡(luò)擅長(zhǎng)各種任務(wù),例如計(jì)算機(jī)視覺(jué)語(yǔ)音識(shí)別和自然語(yǔ)言處理。隨著處理這些神經(jīng)網(wǎng)絡(luò)所需的計(jì)算能力增加,有效的建模和計(jì)算變得越來(lái)越重要。

Sparse 是一種適用于具有 NVIDIA Ampere 架構(gòu)的 GPU 的新性能方法,可通過(guò)減少計(jì)算過(guò)程來(lái)提高開(kāi)發(fā)人員的效率。深度學(xué)習(xí)模型的其他方面不如其他方面重要,有些甚至可以為零。因此,神經(jīng)網(wǎng)絡(luò)不需要對(duì)特定的權(quán)重或參數(shù)進(jìn)行計(jì)算。因此,NVIDIA 可以通過(guò)使用稀疏性將模型的權(quán)重減少近一半來(lái)提高性能、吞吐量和延遲。

通過(guò)變壓器優(yōu)化減少推理計(jì)算

在 TensorRT 8 中,性能增強(qiáng)是通過(guò)變壓器優(yōu)化實(shí)現(xiàn)的。量化開(kāi)發(fā)人員可以利用經(jīng)過(guò)訓(xùn)練的模型通過(guò) 8 位計(jì)算 (INT8) 執(zhí)行推理。這大大減少了 Tensor 核心中的推理計(jì)算和存儲(chǔ)。INT8 越來(lái)越多地用于優(yōu)化機(jī)器學(xué)習(xí)框架,例如 TensorFlow 和 NVIDIA 的 TensorRT,以減少內(nèi)存和計(jì)算需求。因此,NVIDIA 可以在保持準(zhǔn)確性的同時(shí)在 Tensor RT 8 上提供非常高的性能。

例如,量化感知訓(xùn)練 (QAT) 有可能使準(zhǔn)確率翻倍。因此,與舊版本 TensorRT 7 相比,TensorRT 8 可以將許多模型的性能提高一倍。

TensorRT 部署在眾多行業(yè)中

TensorRT 更好的性能和準(zhǔn)確性使其成為醫(yī)療保健、汽車(chē)、互聯(lián)網(wǎng)/電信服務(wù)、金融服務(wù)和零售等行業(yè)的熱門(mén)選擇。例如,Tensor RT 用于為 GE Healthcare 的心血管超聲系統(tǒng)供電。這家數(shù)字診斷解決方案提供商使用該技術(shù)在其 Vivid E95 掃描儀上加速自動(dòng)心臟視圖檢測(cè)。通過(guò)使用改進(jìn)的視圖檢測(cè)算法,心臟病專(zhuān)家可以在早期階段做出更準(zhǔn)確的診斷和檢測(cè)疾病。此外,TensorRT 還被 Verizon、福特、美國(guó)郵政服務(wù)、美國(guó)運(yùn)通等知名公司使用。

隨著 Tensor RT 8 的發(fā)布,NVIDIA 還公布了谷歌使用 Tensor RT 在 BERT-large 推理方面的突破。Transformers 的雙向編碼器表示 (BERT) 是一種基于 Transformer 的機(jī)器學(xué)習(xí)技術(shù),用于預(yù)訓(xùn)練自然語(yǔ)言處理。BERT-Large 模型的分析時(shí)間僅為 1.2 毫秒,可以實(shí)時(shí)響應(yīng)自然語(yǔ)言查詢(xún)。這意味著公司可以將其模型的大小增加一倍或三倍,以獲得更高的準(zhǔn)確性。

許多推理服務(wù)在幕后使用諸如 BERT-Large 之類(lèi)的語(yǔ)言模型。另一方面,基于語(yǔ)言的應(yīng)用程序通常無(wú)法識(shí)別細(xì)微差別或情感,從而導(dǎo)致整體體驗(yàn)不佳。現(xiàn)在,公司可以使用 TensorRT 8 在幾毫秒內(nèi)部署整個(gè)工作流程。這些突破可以為新一代對(duì)話(huà)式 AI 應(yīng)用程序鋪平道路,為用戶(hù)提供更智能和低延遲的體驗(yàn)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 變壓器
    +關(guān)注

    關(guān)注

    162

    文章

    8055

    瀏覽量

    147702
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11294

    瀏覽量

    225350
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5639

    瀏覽量

    109885
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    邊緣AI算力臨界點(diǎn):深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價(jià)值

    Station的出現(xiàn),標(biāo)志著邊緣AI算力不再僅僅是“云端的縮水版”,而是具備獨(dú)立生命周期的“邊緣原生”節(jié)點(diǎn) 。它不僅能在本地完成推理,還能通過(guò)豐富的接口控制物理世界,通過(guò)大內(nèi)存加載復(fù)
    發(fā)表于 03-10 14:19

    Transformer 入門(mén):從零理解 AI 大模型的核心原理

    ) × (4, 5) = 錯(cuò)誤!? (3 ≠ 4) 在 Transformer 中的應(yīng)用 scss 體驗(yàn)AI代碼助手 代碼解讀 復(fù)制代碼 Token 嵌入計(jì)算
    發(fā)表于 02-10 16:33

    使用NORDIC AI的好處

    原始傳感器數(shù)據(jù),可顯著降低功耗、延長(zhǎng)電池壽命。[Edge AI 概述; Nordic Edge AI 技術(shù)頁(yè)] 降低云依賴(lài)與時(shí)延 直接在設(shè)備上做推理,很多決策可以“本地實(shí)時(shí)”完成,不必等云端響應(yīng)
    發(fā)表于 01-31 23:16

    瑞芯微SOC智能視覺(jué)AI處理器

    。B2版本通常在功耗、穩(wěn)定性和部分外圍接口支持上有所優(yōu)化。NPU: 集成0.8 TOPS的NPU,支持INT8/INT16混合運(yùn)算,能滿(mǎn)足大多數(shù)邊緣側(cè)的輕量級(jí)AI
    發(fā)表于 12-19 13:44

    華為數(shù)據(jù)存儲(chǔ)與「DaoCloud 道客」發(fā)布AI推理加速聯(lián)合解決方案

    AI產(chǎn)業(yè)已從“追求模型能力極限”轉(zhuǎn)向“追求推理體驗(yàn)最優(yōu)化”,推理體驗(yàn)決定用戶(hù)與AI的交互質(zhì)感。當(dāng)前推理
    的頭像 發(fā)表于 11-28 10:03 ?426次閱讀
    華為數(shù)據(jù)存儲(chǔ)與「DaoCloud 道客」發(fā)布<b class='flag-5'>AI</b><b class='flag-5'>推理</b>加速聯(lián)合解決方案

    AI狂飆背后的隱形冠軍:解碼AI服務(wù)器與MLCC的共生革命

    政策支持與市場(chǎng)需求驅(qū)動(dòng)下,推出以深度求索(Deepseek)為代表的推理AI模型,推動(dòng)技術(shù)從“生成”向“決策”躍遷,并在部分領(lǐng)域形成國(guó)際領(lǐng)先優(yōu)勢(shì)。 DeepSeek在大語(yǔ)言模型優(yōu)化
    的頭像 發(fā)表于 11-13 11:54 ?793次閱讀
    <b class='flag-5'>AI</b>狂飆背后的隱形冠軍:解碼<b class='flag-5'>AI</b>服務(wù)器與MLCC的共生革命

    使用OpenVINO將PP-OCRv5模型部署在Intel顯卡上

    是一個(gè)用于優(yōu)化和部署人工智能(AI)模型,提升AI推理性能的開(kāi)源工具集合,不僅支持以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為核心組件的預(yù)測(cè)式
    的頭像 發(fā)表于 09-20 11:17 ?1290次閱讀
    使用OpenVINO將PP-OCRv5模型部署在Intel顯卡上

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片

    復(fù)制人類(lèi)智能的AI---AGI。 走向AGI的五個(gè)層次發(fā)現(xiàn)階段: ①L1,聊天機(jī)器人:具備基礎(chǔ)的對(duì)話(huà)能力,能夠理解和回應(yīng)簡(jiǎn)單的文本輸入 ②L2,推理者:具備基本的邏輯推理能力,能夠分析復(fù)雜信息并進(jìn)行推斷
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用

    主要步驟: ①溯因②假說(shuō)③實(shí)驗(yàn) 1、科學(xué)推理的類(lèi)型 ①演繹②歸納 2、自動(dòng)化科學(xué)發(fā)現(xiàn)框架 AI-笛卡兒-----自動(dòng)化科學(xué)發(fā)現(xiàn)框架,利用數(shù)據(jù)和知識(shí)來(lái)生成和評(píng)估候選的科學(xué)假說(shuō)。 4項(xiàng)規(guī)則:三、直覺(jué)
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    1.1RISC-VISA 擴(kuò)展 1.2 向量協(xié)處理器 1.3 與各級(jí)存儲(chǔ)耦合的NPU 1.4 針對(duì)Transformer 模型的架構(gòu)優(yōu)化 SwiftTron是一款專(zhuān)用的開(kāi)源AI加速器,用于量化
    發(fā)表于 09-12 17:30

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1837次閱讀
    NVIDIA Nemotron Nano 2<b class='flag-5'>推理</b>模型發(fā)布

    華為亮相2025金融AI推理應(yīng)用落地與發(fā)展論壇

    近日,2025金融AI推理應(yīng)用落地與發(fā)展論壇在上海舉行。中國(guó)銀聯(lián)執(zhí)行副總裁涂曉軍、華為數(shù)字金融軍團(tuán)CEO曹沖出席本次論壇并發(fā)表致辭。論壇上,華為公司副總裁、數(shù)據(jù)存儲(chǔ)產(chǎn)品線(xiàn)總裁周躍峰博士發(fā)布AI
    的頭像 發(fā)表于 08-15 09:45 ?1267次閱讀

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    網(wǎng)絡(luò)智能診斷平臺(tái)。通過(guò)對(duì)私有化網(wǎng)絡(luò)數(shù)據(jù)的定向訓(xùn)練,信而泰打造了高性能、高可靠性的網(wǎng)絡(luò)診斷模型,顯著提升了AI輔助診斷的精準(zhǔn)度與實(shí)用性。該方案實(shí)現(xiàn)了網(wǎng)絡(luò)全流量深度解析能力與AI智能推理
    發(fā)表于 07-16 15:29

    芯原超低能耗NPU可為移動(dòng)端大語(yǔ)言模型推理提供超40 TOPS算力

    AI需求而設(shè)計(jì),不僅能夠?yàn)?b class='flag-5'>AI PC等終端設(shè)備提供強(qiáng)勁算力支持,而且能夠應(yīng)對(duì)智慧手機(jī)等移動(dòng)終端對(duì)低能耗更為嚴(yán)苛的挑戰(zhàn)。 芯原的超低能耗NPU IP具備高度可配置、可擴(kuò)展的架構(gòu),支持混合
    的頭像 發(fā)表于 06-11 10:47 ?902次閱讀

    谷歌第七代TPU Ironwood深度解讀:AI推理時(shí)代的硬件革命

    、架構(gòu)設(shè)計(jì)的顛覆性創(chuàng)新 ? 首款推理專(zhuān)用TPU ? Ironwood是谷歌TPU系列中首款完全針對(duì)AI推理優(yōu)化的芯片,標(biāo)志著AI
    的頭像 發(fā)表于 04-12 11:10 ?3882次閱讀
    谷歌第七代TPU Ironwood深度解讀:<b class='flag-5'>AI</b><b class='flag-5'>推理</b>時(shí)代的硬件革命