91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Triton助力騰訊構(gòu)建高性能推理服務

科技綠洲 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 作者:NVIDIA英偉達企業(yè)解 ? 2022-04-10 10:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

藉由 NVIDIAT4 GPU,通過 Ronda 平臺調(diào)用 NVIDIA Triton 以及 TensorRT ,整體提升開發(fā)和推理效能,幫助騰訊 PCG 的多個服務整體效能提升 2 倍,吞吐量最大提升 6 倍,同時降低了 40% 的延時。

騰訊平臺與內(nèi)容事業(yè)群(簡稱 騰訊 PCG)負責公司互聯(lián)網(wǎng)平臺和內(nèi)容文化生態(tài)融合發(fā)展,整合 QQ、QQ 空間等社交平臺,和應用寶、瀏覽器等流量平臺,以及新聞資訊、視頻、體育、直播、動漫、影業(yè)等內(nèi)容業(yè)務,推動 IP 跨平臺、多形態(tài)發(fā)展,為更多用戶創(chuàng)造海量的優(yōu)質(zhì)數(shù)字內(nèi)容體驗。

騰訊 PCG 機器學習平臺部旨在構(gòu)建和持續(xù)優(yōu)化符合 PCG 技術(shù)中臺戰(zhàn)略的機器學習平臺和系統(tǒng),提升 PCG 機器學習技術(shù)應用效率和價值。建設業(yè)務領(lǐng)先的模型訓練系統(tǒng)和算法框架;提供涵蓋數(shù)據(jù)標注、模型訓練、評測、上線的全流程平臺服務,實現(xiàn)高效率迭代;在內(nèi)容理解和處理領(lǐng)域,輸出業(yè)界領(lǐng)先的元能力和智能策略庫。機器學習平臺部正服務于 PCG 所有業(yè)務產(chǎn)品。

而過往在項目執(zhí)行時,團隊所面挑戰(zhàn)包含:

1. 業(yè)務繁多,場景復雜

業(yè)務開發(fā)語言包括C++/Python

模型格式繁多,包括ONNX、Pytorch、TensorFlow、TensorRT等

模型預處理涉及圖片下載等網(wǎng)絡IO

多模型融合流程比教復雜,涉及循環(huán)調(diào)用

支持異構(gòu)推理

2. 模型推理結(jié)果異常時,難以方便地調(diào)試定位問題

3. 需要與公司內(nèi)現(xiàn)有協(xié)議/框架/平臺進行融合

基于以上挑戰(zhàn),騰訊 PCG 選擇了采用 NVIDIA Triton 推理服務器,以解決新場景下模型推理引擎面臨的挑戰(zhàn),在提升用戶研效的同時,大幅降低了服務成本。

NVIDIA Triton 是一款開源軟件,對于所有推理模式都可以簡化模型在任一框架中以及任何 GPU 或 CPU 上的運行方式,從而在生產(chǎn)環(huán)境中使用 AI。Triton 支持多模型 ensemble,以及 TensorFlow、PyTorch、ONNX 等多種深度學習模型框架,可以很好的支持多模型聯(lián)合推理的場景,構(gòu)建起視頻、圖片、語音、文本整個推理服務過程,大大降低多個模型服務的開發(fā)和維護成本。

基于 C++ 的基礎架構(gòu)、Dynamic-batch、以及對 TensorRT 的支持,同時配合 T4 的 GPU,將整體推理服務的吞吐能力最大提升 6 倍,延遲最大降低 40%,既滿足了業(yè)務的低延時需求,成本也降低了 20%-66%。

通過將 Triton 編譯為動態(tài)鏈接庫,可以方便地鏈入公司內(nèi)部框架,對接公司的平臺治理體系。符合 C 語言規(guī)范的 API 也極大降低了用戶的接入成本。

借助 Python Backend 和 Custom Backend,用戶可以自由選擇使用 C++/Python 語言進行二次開發(fā)。

Triton 的 Tracing 能力可以方便地捕捉執(zhí)行過程中的數(shù)據(jù)流狀態(tài)。結(jié)合 Metrics 和 Perf Analysis 等組件,可以快速定位開發(fā)調(diào)試,甚至是線上問題,對于開發(fā)和定位問題的效率有很大提升。

NVIDIA DALI 是 GPU 加速的數(shù)據(jù)增強和圖像加載庫。DALI Backend 可以用于替換掉原來的圖片解碼、resize 等操作。FIL Backend 也可以替代 Python XGBoost 模型推理,進一步提升服務端推理性能。

借助 NVIDIA Triton 推理框架,配合 DALI/FIL/Python 等 Backend,以及 TensorRT,整體推理服務的吞吐能力最大提升 6 倍,延遲最大降低 40%。幫助騰訊 PCG 各業(yè)務場景中,以更低的成本構(gòu)建了高性能的推理服務,同時更低的延遲降低了整條系統(tǒng)鏈路的響應時間,優(yōu)化了用戶體驗。

審核編輯:彭菁
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7335

    瀏覽量

    94769
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5594

    瀏覽量

    109731
  • 騰訊
    +關(guān)注

    關(guān)注

    7

    文章

    1684

    瀏覽量

    50918
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設計目標是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限性能。CUDA Tile 的一大優(yōu)勢是允許開發(fā)者基于其
    的頭像 發(fā)表于 02-10 10:31 ?243次閱讀

    如何在NVIDIA CUDA Tile中編寫高性能矩陣乘法

    本博文是系列課程的一部分,旨在幫助開發(fā)者學習 NVIDIA CUDA Tile 編程,掌握構(gòu)建高性能 GPU 內(nèi)核的方法,并以矩陣乘法作為核心示例。
    的頭像 發(fā)表于 01-22 16:43 ?4822次閱讀
    如何在<b class='flag-5'>NVIDIA</b> CUDA Tile中編寫<b class='flag-5'>高性能</b>矩陣乘法

    基于NVIDIA模組與軟件套件推動邊緣與機器人AI推理

    NVIDIA 正式推出 NVIDIA Jetson T4000,將高性能 AI 與實時推理能力帶入更廣泛的機器人和邊緣 AI 應用。T4000 針對更嚴格的功耗和散熱限制進行了優(yōu)化,最
    的頭像 發(fā)表于 01-14 09:46 ?540次閱讀
    基于<b class='flag-5'>NVIDIA</b>模組與軟件套件推動邊緣與機器人AI<b class='flag-5'>推理</b>

    使用NVIDIA Nemotron RAG和Microsoft SQL Server 2025構(gòu)建高性能AI應用

    搜索和調(diào)用外部 AI 模型的 SQL 原生 API。NVIDIA 與微軟共同將 SQL Server 2025 與 NVIDIA Nemotron RAG 開放模型集合無縫連接,這使您能夠在云端或本地環(huán)境中基于自己的數(shù)據(jù)構(gòu)建
    的頭像 發(fā)表于 12-01 09:31 ?791次閱讀
    使用<b class='flag-5'>NVIDIA</b> Nemotron RAG和Microsoft SQL Server 2025<b class='flag-5'>構(gòu)建</b><b class='flag-5'>高性能</b>AI應用

    如何在NVIDIA Jetson AGX Thor上通過Docker高效部署vLLM推理服務

    繼系統(tǒng)安裝與環(huán)境配置后,本期我們將繼續(xù)帶大家深入 NVIDIA Jetson AGX Thor 的開發(fā)教程之旅,了解如何在 Jetson AGX Thor 上,通過 Docker 高效部署 vLLM 推理服務
    的頭像 發(fā)表于 11-13 14:08 ?4116次閱讀
    如何在<b class='flag-5'>NVIDIA</b> Jetson AGX Thor上通過Docker高效部署vLLM<b class='flag-5'>推理</b><b class='flag-5'>服務</b>

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實
    的頭像 發(fā)表于 10-21 11:04 ?1174次閱讀

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1783次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型發(fā)布

    利用NVIDIA推理模型構(gòu)建AI智能體

    開放式推理模型能夠更快、更廣泛地進行思考,為客戶服務、網(wǎng)絡安全、制造、物流和機器人等領(lǐng)域的 AI 智能體生成更明智的結(jié)果。
    的頭像 發(fā)表于 08-13 14:32 ?1592次閱讀
    利用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>模型<b class='flag-5'>構(gòu)建</b>AI智能體

    進迭時空同構(gòu)融合RISC-V AI CPU的Triton算子編譯器實踐

    Triton是由OpenAI開發(fā)的一個開源編程語言和編譯器,旨在簡化高性能GPU內(nèi)核的編寫。它提供了類似Python的語法,并通過高級抽象降低了GPU編程的復雜性,同時保持了高性能。目前
    的頭像 發(fā)表于 07-15 09:04 ?1858次閱讀
    進迭時空同構(gòu)融合RISC-V AI CPU的<b class='flag-5'>Triton</b>算子編譯器實踐

    使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?1881次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應用的最佳實踐

    企業(yè)使用NVIDIA NeMo微服務構(gòu)建AI智能體平臺

    已發(fā)布的 NeMo 微服務可與合作伙伴平臺集成,作為創(chuàng)建 AI 智能體的構(gòu)建模塊,使用商業(yè)智能與強大的邏輯推理模型 (包括 NVIDIA Llama Nemotron) 處理更多任務。
    的頭像 發(fā)表于 04-27 15:05 ?1285次閱讀

    英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理

    Oracle 數(shù)據(jù)庫與 NVIDIA AI 相集成,使企業(yè)能夠更輕松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA 加速計算和推理軟件與 Oracle 的
    的頭像 發(fā)表于 03-21 12:01 ?1434次閱讀
    英偉達GTC2025亮點:Oracle與<b class='flag-5'>NVIDIA</b>合作<b class='flag-5'>助力</b>企業(yè)加速代理式AI<b class='flag-5'>推理</b>

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    Triton 推理服務器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務
    的頭像 發(fā)表于 03-20 15:03 ?1234次閱讀

    Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計算和推理軟件與 Oracle 的 AI 基礎設施以及生成式 AI 服務首次實現(xiàn)集成,以幫助全球企業(yè)組織加速創(chuàng)建代理式
    發(fā)表于 03-19 15:24 ?577次閱讀
    Oracle 與 <b class='flag-5'>NVIDIA</b> 合作<b class='flag-5'>助力</b>企業(yè)加速代理式 AI <b class='flag-5'>推理</b>

    NVIDIA 推出開放推理 AI 模型系列,助力開發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺

    月 18 日 —— ?NVIDIA 今日發(fā)布具有推理功能的開源 Llama Nemotron 模型系列,旨在為開發(fā)者和企業(yè)提供業(yè)務就緒型基礎,助力構(gòu)建能夠獨立工作或以團隊形式完成復雜
    發(fā)表于 03-19 09:31 ?390次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開放<b class='flag-5'>推理</b> AI 模型系列,<b class='flag-5'>助力</b>開發(fā)者和企業(yè)<b class='flag-5'>構(gòu)建</b>代理式 AI 平臺