91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Triton推理服務(wù)器簡(jiǎn)化人工智能推理

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:Uttara Kumar ? 2022-04-08 16:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能的快速發(fā)展正在推高數(shù)據(jù)集的規(guī)模,以及網(wǎng)絡(luò)的規(guī)模和復(fù)雜性。支持人工智能的應(yīng)用程序,如電子商務(wù)產(chǎn)品推薦、基于語(yǔ)音的助手和呼叫中心自動(dòng)化,需要數(shù)十到數(shù)百個(gè)經(jīng)過(guò)培訓(xùn)的人工智能模型。推理服務(wù)幫助基礎(chǔ)設(shè)施管理人員部署、管理和擴(kuò)展這些模型,并在生產(chǎn)中保證實(shí)時(shí)服務(wù)質(zhì)量( QoS )。此外,基礎(chǔ)架構(gòu)經(jīng)理希望提供和管理用于部署這些 AI 模型的正確計(jì)算基礎(chǔ)架構(gòu),最大限度地利用計(jì)算資源,靈活地放大或縮小規(guī)模,以優(yōu)化部署的運(yùn)營(yíng)成本。將人工智能投入生產(chǎn)既是一項(xiàng)推理服務(wù),也是一項(xiàng)基礎(chǔ)設(shè)施管理挑戰(zhàn)。

NVIDIA 與谷歌云合作,將 CPUGPU 通用推理服務(wù)平臺(tái) NVIDIA Triton Inference Server的功能與谷歌 Kubernetes 引擎( GKE )相結(jié)合,使企業(yè)更容易將人工智能投入生產(chǎn)。NVIDIA Triton Inference Server 是一個(gè)托管環(huán)境,用于在安全的谷歌基礎(chǔ)設(shè)施中部署、擴(kuò)展和管理容器化人工智能應(yīng)用程序。

使用 NVIDIA Triton 推理服務(wù)器在谷歌云上的 CPU 和 GPU 上提供推理服務(wù)

在企業(yè)應(yīng)用程序中操作 AI 模型帶來(lái)了許多挑戰(zhàn)——為在多個(gè)框架中培訓(xùn)的模型提供服務(wù),處理不同類型的推理查詢類型,并構(gòu)建一個(gè)能夠跨 CPU 和 GPU 等多個(gè)部署平臺(tái)進(jìn)行優(yōu)化的服務(wù)解決方案。

Triton 推理服務(wù)器通過(guò)提供一個(gè)單一的標(biāo)準(zhǔn)化推理平臺(tái)來(lái)解決這些挑戰(zhàn),該平臺(tái)可以從任何基于 TensorFlow 、TensorRT、 PyTorch 、 ONNX 運(yùn)行時(shí)、 OpenVINO 或自定義 C ++/ Python 框架的本地存儲(chǔ)或谷歌云的托管存儲(chǔ)在任何基于 GPU 或 CPU 的基礎(chǔ)設(shè)施上部署經(jīng)過(guò)培訓(xùn)的 AI 模型。

圖 1 Triton 部署在 Google Kubernetes 引擎( GKE )上的推理服務(wù)器

在 GKE 集群上一鍵部署 NVIDIA Triton 推理服務(wù)器

Google Kubernetes Engine ( GKE )上的 Triton 為部署在 CPU 和 GPU 上的 AI 模型提供了通用推理服務(wù)平臺(tái),并結(jié)合了 Kubernetes 群集管理、負(fù)載平衡和基于需求的自動(dòng)縮放計(jì)算的方便性。

使用谷歌市場(chǎng)上新的一鍵式 Triton GKE 推理服務(wù)器應(yīng)用程序,可以將 Triton 無(wú)縫部署為 Google Kubernetes Engine ( GKE )管理的集群上的容器化微服務(wù)。

GKE 的 Triton 推理服務(wù)器應(yīng)用程序是一個(gè) helm chart 部署程序,可自動(dòng)安裝和配置 Triton ,以便在具有 NVIDIA GPU 節(jié)點(diǎn)池的 GKE 集群上使用,包括 NVIDIA A100 Tensor Core GPU s 和 NVIDIA T4 Tensor Core GPU s ,并利用谷歌云上的 Istio 進(jìn)行流量進(jìn)入和負(fù)載平衡。它還包括一個(gè)水平 pod autoscaler ( HPA ),它依賴堆棧驅(qū)動(dòng)程序自定義度量適配器來(lái)監(jiān)控 GPU 占空比,并根據(jù)推理查詢和 SLA 要求自動(dòng)縮放 GKE 集群中的 GPU 節(jié)點(diǎn)。

關(guān)于作者

Uttara Kumar 是 NVIDIA 的高級(jí)產(chǎn)品營(yíng)銷經(jīng)理,專注于 GPU - 云計(jì)算中的人工智能加速應(yīng)用。她非常關(guān)心讓每個(gè)人都能獲得技術(shù)的民主化,讓開(kāi)發(fā)者能夠利用 NVIDIA 數(shù)據(jù)中心平臺(tái)的力量來(lái)加快創(chuàng)新步伐。在 NVIDIA 之前,她領(lǐng)導(dǎo)半導(dǎo)體和科學(xué)計(jì)算軟件公司的軟件產(chǎn)品營(yíng)銷。她擁有安娜堡密歇根大學(xué)的 Eel CTR 工程碩士學(xué)位。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11277

    瀏覽量

    224949
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    14

    文章

    10251

    瀏覽量

    91480
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50094

    瀏覽量

    265276
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    思必馳場(chǎng)景化推理AI重塑智能交互

    在AI技術(shù)從“感知”走向“認(rèn)知”的今天,推理能力正成為推動(dòng)人工智能向更高階躍遷的核心引擎。
    的頭像 發(fā)表于 12-12 11:31 ?739次閱讀

    使用NVIDIA Grove簡(jiǎn)化Kubernetes上的復(fù)雜AI推理

    過(guò)去幾年,AI 推理的部署已經(jīng)從單一模型、單一 Pod 演變?yōu)閺?fù)雜的多組件系統(tǒng)。如今,一個(gè)模型部署可能包含多個(gè)不同的組件——預(yù)填充 (prefill)、解碼 (decode)、視覺(jué)編碼
    的頭像 發(fā)表于 11-14 10:25 ?5268次閱讀
    使用<b class='flag-5'>NVIDIA</b> Grove<b class='flag-5'>簡(jiǎn)化</b>Kubernetes上的復(fù)雜AI<b class='flag-5'>推理</b>

    如何在NVIDIA Jetson AGX Thor上通過(guò)Docker高效部署vLLM推理服務(wù)

    繼系統(tǒng)安裝與環(huán)境配置后,本期我們將繼續(xù)帶大家深入 NVIDIA Jetson AGX Thor 的開(kāi)發(fā)教程之旅,了解如何在 Jetson AGX Thor 上,通過(guò) Docker 高效部署 vLLM 推理服務(wù)。
    的頭像 發(fā)表于 11-13 14:08 ?4111次閱讀
    如何在<b class='flag-5'>NVIDIA</b> Jetson AGX Thor上通過(guò)Docker高效部署vLLM<b class='flag-5'>推理</b><b class='flag-5'>服務(wù)</b>

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)
    的頭像 發(fā)表于 10-21 11:04 ?1165次閱讀

    Lambda采用Supermicro NVIDIA Blackwell GPU服務(wù)器集群構(gòu)建人工智能工廠

    大批量 Supermicro GPU 優(yōu)化服務(wù)器(包括基于 NVIDIA Blackwell 的系統(tǒng)),以擴(kuò)展其人工智能基礎(chǔ)設(shè)施并向客戶交付高性能計(jì)算系統(tǒng)。此次合作于今年 6 月率先在俄亥俄州哥倫布市的 Cologix COL4
    的頭像 發(fā)表于 08-30 16:55 ?777次閱讀

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1777次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型發(fā)布

    利用NVIDIA推理模型構(gòu)建AI智能

    開(kāi)放式推理模型能夠更快、更廣泛地進(jìn)行思考,為客戶服務(wù)、網(wǎng)絡(luò)安全、制造、物流和機(jī)器人等領(lǐng)域的 AI 智能體生成更明智的結(jié)果。
    的頭像 發(fā)表于 08-13 14:32 ?1585次閱讀
    利用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>模型構(gòu)建AI<b class='flag-5'>智能</b>體

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    DeepSeek-R1:強(qiáng)大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司開(kāi)發(fā)的新一代AI大模型。其核心優(yōu)勢(shì)在于強(qiáng)大的推理引擎能力,融合了自然語(yǔ)言處理(NLP)、深度
    發(fā)表于 07-16 15:29

    大模型推理顯存和計(jì)算量估計(jì)方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)大模型在各個(gè)領(lǐng)域得到了廣泛應(yīng)用。然而,大模型的推理過(guò)程對(duì)顯存和計(jì)算資源的需求較高,給實(shí)際應(yīng)用帶來(lái)了挑戰(zhàn)。為了解決這一問(wèn)題,本文將探討大模型推理顯存和計(jì)算量的估計(jì)
    發(fā)表于 07-03 19:43

    ai服務(wù)器是什么?與普通服務(wù)器有什么區(qū)別

    AI服務(wù)器并非簡(jiǎn)單的硬件堆砌,而是專門(mén)為人工智能任務(wù)設(shè)計(jì)的高性能計(jì)算系統(tǒng)。其核心目標(biāo)是高效處理海量數(shù)據(jù)并行計(jì)算(如矩陣乘法、模型推理),并針對(duì)AI工作負(fù)載(如深度學(xué)習(xí)訓(xùn)練、大模型推理
    的頭像 發(fā)表于 06-24 16:39 ?4194次閱讀

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?1871次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    AI 推理服務(wù)器都有什么?2025年服務(wù)器品牌排行TOP10與選購(gòu)技巧

    根據(jù)行業(yè)數(shù)據(jù),AI推理服務(wù)器的性能差異可以達(dá)到10倍以上。比如,用普通服務(wù)器跑一個(gè)700億參數(shù)的大模型,可能需要30秒才能出結(jié)果,而用頂級(jí)服務(wù)器可能只需要3秒。這就是為什么選對(duì)
    的頭像 發(fā)表于 04-09 11:06 ?8570次閱讀
    AI <b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>都有什么?2025年<b class='flag-5'>服務(wù)器</b>品牌排行TOP10與選購(gòu)技巧

    推理服務(wù)器的7大可靠性指標(biāo),寬溫/抗震/EMC防護(hù)實(shí)測(cè)數(shù)據(jù)分享

    在 AIoT 設(shè)備突破百億級(jí)的今天,邊緣計(jì)算推理服務(wù)器已成為智能時(shí)代的 "神經(jīng)末梢"。根據(jù) Gartner 預(yù)測(cè),到 2025 年將有 75% 的企業(yè)關(guān)鍵任務(wù)部署在邊緣端。然而,工業(yè)級(jí)應(yīng)用場(chǎng)景(如
    的頭像 發(fā)表于 04-02 10:43 ?1143次閱讀
    <b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>的7大可靠性指標(biāo),寬溫/抗震/EMC防護(hù)實(shí)測(cè)數(shù)據(jù)分享

    國(guó)產(chǎn)推理服務(wù)器如何選擇?深度解析選型指南與華頡科技實(shí)戰(zhàn)案例

    人工智能技術(shù)的爆發(fā)催生了對(duì)推理算力的迫切需求,而進(jìn)口服務(wù)器的高成本與技術(shù)依賴性,推動(dòng)了國(guó)產(chǎn)推理服務(wù)器的快速發(fā)展。據(jù)IDC預(yù)測(cè),到2025年,
    的頭像 發(fā)表于 03-24 17:11 ?1227次閱讀
    國(guó)產(chǎn)<b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>如何選擇?深度解析選型指南與華頡科技實(shí)戰(zhàn)案例

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開(kāi)源庫(kù)加速并擴(kuò)展AI推理模型

    Triton 推理服務(wù)器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務(wù)
    的頭像 發(fā)表于 03-20 15:03 ?1231次閱讀