91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA TensorRT 8 BERT在1.2毫秒內(nèi)進(jìn)行推斷

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:About Jay Rodge ? 2022-03-31 17:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA 發(fā)布的TensorRT 8.0 ,通過(guò)新的優(yōu)化將 BERT 的大推理延遲降低到 1.2 毫秒。該版本還提供了 2 倍的精度為 INT8 精度與量化意識(shí)的訓(xùn)練,并通過(guò)支持稀疏性,這是引進(jìn)安培 GPU 的顯著更高的性能。

TensorRT 是一個(gè)用于高性能深度學(xué)習(xí)推理的 SDK ,包括推理優(yōu)化器和運(yùn)行時(shí),提供低延遲和高吞吐量。 TensorRT 用于醫(yī)療、汽車、制造、互聯(lián)網(wǎng)/電信服務(wù)、金融服務(wù)、能源等行業(yè),下載量近 250 萬(wàn)次。

有幾種新的基于 transformer 模型被用于會(huì)話人工智能。 TensorRT 中的新的廣義優(yōu)化可以加速所有這些模型,將推理時(shí)間減少到 TensorRT 7 的一半。

此版本的亮點(diǎn)包括:

BERT 在 1.2 毫秒內(nèi)進(jìn)行推斷,并進(jìn)行了新的 transformer 優(yōu)化

使用量化感知訓(xùn)練,以 INT8 精度實(shí)現(xiàn)與 FP32 相當(dāng)?shù)臏?zhǔn)確性

引入稀疏性支持對(duì)安培 GPU 的快速推理

關(guān)于作者

About Jay Rodge

Jay Rodge 是 NVIDIA 的產(chǎn)品營(yíng)銷經(jīng)理,負(fù)責(zé)深入學(xué)習(xí)和推理產(chǎn)品,推動(dòng)產(chǎn)品發(fā)布和產(chǎn)品營(yíng)銷計(jì)劃。杰伊在芝加哥伊利諾伊理工學(xué)院獲得計(jì)算機(jī)科學(xué)碩士學(xué)位,主攻計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理。在 NVIDIA 之前,杰伊是寶馬集團(tuán)的人工智能研究實(shí)習(xí)生,為寶馬最大的制造廠使用計(jì)算機(jī)視覺(jué)解決問(wèn)題。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5627

    瀏覽量

    109873
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5213

    瀏覽量

    135615
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    UPS電源工作原理揭秘:從電力中斷到持續(xù)守護(hù)的技術(shù)密碼

    ?電流中斷的剎那,隱藏在機(jī)柜中的精密系統(tǒng)正在完成一場(chǎng)毫秒級(jí)的接力。2022年,某沿海數(shù)據(jù)中心遭遇雷擊導(dǎo)致電網(wǎng)閃斷,整個(gè)園區(qū)的服務(wù)器卻安然無(wú)恙——監(jiān)控畫(huà)面顯示,電壓驟降的4毫秒內(nèi),一套UPS系統(tǒng)完成
    的頭像 發(fā)表于 12-12 10:09 ?636次閱讀
    UPS電源工作原理揭秘:從電力中斷到持續(xù)守護(hù)的技術(shù)密碼

    數(shù)據(jù)中心應(yīng)急供電:超級(jí)電容無(wú)縫切換,守護(hù)數(shù)據(jù)不丟失

    毫秒級(jí)切換,杜絕供電中斷 數(shù)據(jù)中心對(duì)供電連續(xù)性要求極高,微秒級(jí)斷電即可導(dǎo)致數(shù)據(jù)丟失或硬件損傷。超級(jí)電容憑借物理儲(chǔ)能機(jī)制(雙電層結(jié)構(gòu)),可在 5毫秒內(nèi) 完成充電和放電,實(shí)現(xiàn)主電源與備用電源的無(wú)縫切換。例如: 英偉達(dá)
    的頭像 發(fā)表于 12-02 14:40 ?995次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)現(xiàn)這一目標(biāo),其構(gòu)建了多維度的核心實(shí)現(xiàn)路徑:一方面,針對(duì)需
    的頭像 發(fā)表于 10-21 11:04 ?1217次閱讀

    讓還在為智能穿戴設(shè)備發(fā)愁?這顆2米芯片你變硬件大神

    STK8321 ——這串字母數(shù)字組合可能看起來(lái)平平無(wú)奇,但它正在悄悄顛覆智能硬件行業(yè)的游戲規(guī)則。想象一下:當(dāng)你設(shè)計(jì)的運(yùn)動(dòng)手環(huán)能在0.1秒內(nèi)感知用戶抬腕動(dòng)作,當(dāng)你的TWS耳機(jī)盒跌落時(shí)自動(dòng)記錄沖擊數(shù)據(jù)
    的頭像 發(fā)表于 10-20 09:35 ?550次閱讀

    DeepSeek R1 MTPTensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀(jì)錄,Multi-Token Prediction (MTP) 實(shí)現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4499次閱讀
    DeepSeek R1 MTP<b class='flag-5'>在</b><b class='flag-5'>TensorRT</b>-LLM中的實(shí)現(xiàn)與優(yōu)化

    毫秒不差的背后:北斗時(shí)間服務(wù)器如何重塑現(xiàn)代網(wǎng)絡(luò)同步?

    金融交易、電力調(diào)度、5G通信等領(lǐng)域,1毫秒的時(shí)間誤差可能導(dǎo)致連鎖反應(yīng)。而北斗時(shí)間服務(wù)器的出現(xiàn),正悄然改變著全球時(shí)間同步的格局。
    的頭像 發(fā)表于 08-13 15:40 ?548次閱讀
    <b class='flag-5'>毫秒</b>不差的背后:北斗時(shí)間服務(wù)器如何重塑現(xiàn)代網(wǎng)絡(luò)同步?

    Alif Semiconductor發(fā)布支持生成式AI的MCU基準(zhǔn)測(cè)試結(jié)果,鞏固其邊緣AI領(lǐng)域的領(lǐng)先地位

    檢測(cè),8毫秒內(nèi)完成圖像分類。 ? 中國(guó),北京2025年8月13日 ——Alif Semiconductor?是全球領(lǐng)先的安全、互聯(lián)、高能效人工智
    的頭像 發(fā)表于 08-13 15:39 ?2.2w次閱讀
    Alif Semiconductor發(fā)布支持生成式AI的MCU基準(zhǔn)測(cè)試結(jié)果,鞏固其<b class='flag-5'>在</b>邊緣AI領(lǐng)域的領(lǐng)先地位

    NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開(kāi)放下載

    NVIDIA RTX 與 NVIDIA TensorRT 現(xiàn)已加速 Black Forest Labs 的最新圖像生成和編輯模型;此外,Gemma 3n 現(xiàn)可借助 RTX 和 NVIDIA
    的頭像 發(fā)表于 07-16 09:16 ?2078次閱讀

    水表界的“翻譯官”:讓CCLinkIE和Modbus TCP“無(wú)障礙聊天”!

    撞車”; 雙網(wǎng)關(guān)冗余:關(guān)鍵通道增設(shè)備用網(wǎng)關(guān),防止單點(diǎn)故障。 最終,丟包率降至0.5%以下,延遲穩(wěn)定在50毫秒內(nèi),數(shù)據(jù)通信瞬間“絲滑”! 技術(shù)要點(diǎn):用對(duì)工具,事半功倍 網(wǎng)關(guān)雖妙,但需注意: 延遲預(yù)警:協(xié)議
    發(fā)表于 07-10 15:43

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開(kāi)源庫(kù),可幫助開(kāi)發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2239次閱讀

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1最小延遲場(chǎng)景中的性能紀(jì)錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個(gè) NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1
    的頭像 發(fā)表于 07-02 19:31 ?3326次閱讀
    <b class='flag-5'>NVIDIA</b> Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1<b class='flag-5'>在</b>最小延遲場(chǎng)景中的性能紀(jì)錄

    &quot;毫秒之間,萬(wàn)物同步:NTP時(shí)間服務(wù)器如何塑造現(xiàn)代數(shù)字世界&quot;

    金融交易、電力調(diào)度、5G通信甚至科學(xué)研究中,時(shí)間誤差超過(guò)1毫秒就可能引發(fā)數(shù)據(jù)混亂。而隱藏在這些場(chǎng)景背后的關(guān)鍵角色,正是NTP(網(wǎng)絡(luò)時(shí)間協(xié)議)時(shí)間服務(wù)器。它像一臺(tái)無(wú)形的精密鐘擺,維系著全球數(shù)字系統(tǒng)的秩序。
    的頭像 發(fā)表于 06-30 14:16 ?623次閱讀
    &quot;<b class='flag-5'>毫秒</b>之間,萬(wàn)物同步:NTP時(shí)間服務(wù)器如何塑造現(xiàn)代數(shù)字世界&quot;

    安科瑞ASCP限流式保護(hù)器筑牢充電樁毫秒級(jí)安全防線

    安科瑞 劉芳 咨詢家:acrel-js 政策要求 限流式保護(hù)器能氣什么作用 限流式保護(hù)器是兼具短路限流、過(guò)載保護(hù)與電弧抑止功能的電氣安全裝置,核心作用是 1 毫秒內(nèi)快速切斷故障電流,防止電氣火災(zāi)
    的頭像 發(fā)表于 06-19 14:13 ?651次閱讀
    安科瑞ASCP限流式保護(hù)器筑牢充電樁<b class='flag-5'>毫秒</b>級(jí)安全防線

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?1935次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS應(yīng)用的最佳實(shí)踐

    Redis 8 向量搜索實(shí)測(cè):輕松擴(kuò)展至 10 億向量

    艾體寶Redis 8 向量搜索實(shí)測(cè)輕松支持 10 億向量,仍保持低延遲與高吞吐。中位延遲僅200毫秒,90%精確度;處理50并發(fā)搜索請(qǐng)求中位延遲僅1.3,95%精確度。
    的頭像 發(fā)表于 05-13 14:00 ?790次閱讀
    Redis <b class='flag-5'>8</b> 向量搜索實(shí)測(cè):輕松擴(kuò)展至 10 億向量