藉由 NVIDIAT4 GPU,通過 Ronda 平臺調(diào)用 NVIDIA Triton 以及 TensorRT ,整體提升開發(fā)和推理效能,幫助騰訊 PCG 的多個服務整體效能提升 2 倍,吞吐量最大提升 6 倍,同時降低了 40% 的延時。
騰訊平臺與內(nèi)容事業(yè)群(簡稱 騰訊 PCG)負責公司互聯(lián)網(wǎng)平臺和內(nèi)容文化生態(tài)融合發(fā)展,整合 QQ、QQ 空間等社交平臺,和應用寶、瀏覽器等流量平臺,以及新聞資訊、視頻、體育、直播、動漫、影業(yè)等內(nèi)容業(yè)務,推動 IP 跨平臺、多形態(tài)發(fā)展,為更多用戶創(chuàng)造海量的優(yōu)質(zhì)數(shù)字內(nèi)容體驗。
騰訊 PCG 機器學習平臺部旨在構(gòu)建和持續(xù)優(yōu)化符合 PCG 技術(shù)中臺戰(zhàn)略的機器學習平臺和系統(tǒng),提升 PCG 機器學習技術(shù)應用效率和價值。建設業(yè)務領(lǐng)先的模型訓練系統(tǒng)和算法框架;提供涵蓋數(shù)據(jù)標注、模型訓練、評測、上線的全流程平臺服務,實現(xiàn)高效率迭代;在內(nèi)容理解和處理領(lǐng)域,輸出業(yè)界領(lǐng)先的元能力和智能策略庫。機器學習平臺部正服務于 PCG 所有業(yè)務產(chǎn)品。
而過往在項目執(zhí)行時,團隊所面挑戰(zhàn)包含:
1. 業(yè)務繁多,場景復雜
模型格式繁多,包括ONNX、Pytorch、TensorFlow、TensorRT等
模型預處理涉及圖片下載等網(wǎng)絡IO
多模型融合流程比教復雜,涉及循環(huán)調(diào)用
支持異構(gòu)推理
2. 模型推理結(jié)果異常時,難以方便地調(diào)試定位問題
3. 需要與公司內(nèi)現(xiàn)有協(xié)議/框架/平臺進行融合
基于以上挑戰(zhàn),騰訊 PCG 選擇了采用 NVIDIA Triton 推理服務器,以解決新場景下模型推理引擎面臨的挑戰(zhàn),在提升用戶研效的同時,大幅降低了服務成本。
NVIDIA Triton 是一款開源軟件,對于所有推理模式都可以簡化模型在任一框架中以及任何 GPU 或 CPU 上的運行方式,從而在生產(chǎn)環(huán)境中使用 AI。Triton 支持多模型 ensemble,以及 TensorFlow、PyTorch、ONNX 等多種深度學習模型框架,可以很好的支持多模型聯(lián)合推理的場景,構(gòu)建起視頻、圖片、語音、文本整個推理服務過程,大大降低多個模型服務的開發(fā)和維護成本。
基于 C++ 的基礎架構(gòu)、Dynamic-batch、以及對 TensorRT 的支持,同時配合 T4 的 GPU,將整體推理服務的吞吐能力最大提升 6 倍,延遲最大降低 40%,既滿足了業(yè)務的低延時需求,成本也降低了 20%-66%。
通過將 Triton 編譯為動態(tài)鏈接庫,可以方便地鏈入公司內(nèi)部框架,對接公司的平臺治理體系。符合 C 語言規(guī)范的 API 也極大降低了用戶的接入成本。
借助 Python Backend 和 Custom Backend,用戶可以自由選擇使用 C++/Python 語言進行二次開發(fā)。
Triton 的 Tracing 能力可以方便地捕捉執(zhí)行過程中的數(shù)據(jù)流狀態(tài)。結(jié)合 Metrics 和 Perf Analysis 等組件,可以快速定位開發(fā)調(diào)試,甚至是線上問題,對于開發(fā)和定位問題的效率有很大提升。
NVIDIA DALI 是 GPU 加速的數(shù)據(jù)增強和圖像加載庫。DALI Backend 可以用于替換掉原來的圖片解碼、resize 等操作。FIL Backend 也可以替代 Python XGBoost 模型推理,進一步提升服務端推理性能。
借助 NVIDIA Triton 推理框架,配合 DALI/FIL/Python 等 Backend,以及 TensorRT,整體推理服務的吞吐能力最大提升 6 倍,延遲最大降低 40%。幫助騰訊 PCG 各業(yè)務場景中,以更低的成本構(gòu)建了高性能的推理服務,同時更低的延遲降低了整條系統(tǒng)鏈路的響應時間,優(yōu)化了用戶體驗。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7335瀏覽量
94769 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5594瀏覽量
109731 -
騰訊
+關(guān)注
關(guān)注
7文章
1684瀏覽量
50918
發(fā)布評論請先 登錄
借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程
如何在NVIDIA CUDA Tile中編寫高性能矩陣乘法
基于NVIDIA模組與軟件套件推動邊緣與機器人AI推理
使用NVIDIA Nemotron RAG和Microsoft SQL Server 2025構(gòu)建高性能AI應用
如何在NVIDIA Jetson AGX Thor上通過Docker高效部署vLLM推理服務
NVIDIA TensorRT LLM 1.0推理框架正式上線
NVIDIA Nemotron Nano 2推理模型發(fā)布
利用NVIDIA推理模型構(gòu)建AI智能體
進迭時空同構(gòu)融合RISC-V AI CPU的Triton算子編譯器實踐
使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐
企業(yè)使用NVIDIA NeMo微服務構(gòu)建AI智能體平臺
英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理
英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型
Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理
NVIDIA 推出開放推理 AI 模型系列,助力開發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺
NVIDIA Triton助力騰訊構(gòu)建高性能推理服務
評論