91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何在NVIDIA Jetson AGX Thor上通過(guò)Docker高效部署vLLM推理服務(wù)

麗臺(tái)科技 ? 來(lái)源:麗臺(tái)科技 ? 2025-11-13 14:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

繼系統(tǒng)安裝與環(huán)境配置后,本期我們將繼續(xù)帶大家深入NVIDIAJetson AGX Thor的開(kāi)發(fā)教程之旅,了解如何在 Jetson AGX Thor 上,通過(guò) Docker 高效部署 vLLM 推理服務(wù)。

具體內(nèi)容包括:

vLLM 簡(jiǎn)介與優(yōu)勢(shì)

vLLM Docker 容器構(gòu)建

使用 vLLM 在線下載模型

使用 vLLM 運(yùn)行本地模型

使用 Chatbox 作為前端調(diào)用 vLLM 運(yùn)行的模型

一、vLLM 簡(jiǎn)介與優(yōu)勢(shì)

1什么是 vLLM?

vLLM 是一個(gè)高效的大語(yǔ)言模型推理和服務(wù)引擎,專(zhuān)門(mén)優(yōu)化了注意力機(jī)制和內(nèi)存管理,能夠提供極高的吞吐量。

2在 Jetson AGX Thor 上運(yùn)行 vLLM 的優(yōu)勢(shì):

PagedAttention 技術(shù):顯著減少內(nèi)存碎片,提高 GPU 利用率

Continuous Batching 機(jī)制:能夠連續(xù)動(dòng)態(tài)處理不同長(zhǎng)度的請(qǐng)求

開(kāi)源生態(tài):支持主流開(kāi)源模型(Llama、Qwen、ChatGLM 等)

二、vLLM Docker 容器構(gòu)建

在上一期NVIDIA Jetson AGX Thor Developer Kit 開(kāi)發(fā)環(huán)境配置教程中,我們已經(jīng)完成了 Docker 的安裝與配置,現(xiàn)在,只需要使用 Docker 拉取 vLLM 鏡像即可。

163bee3c-becd-11f0-8c8f-92fbcf53809c.jpg

當(dāng)前 Docker 版本

1. 參照上期教程介紹的方法,注冊(cè)并登錄 NGC 之后,搜索 vLLM 進(jìn)入容器頁(yè)面,點(diǎn)擊“Get Container”,復(fù)制鏡像目錄。

169bcfdc-becd-11f0-8c8f-92fbcf53809c.png

2. 在命令行運(yùn)行docker pull nvcr.io/nvidia/vllm:25.10-py3下載鏡像。

16fff49e-becd-11f0-8c8f-92fbcf53809c.jpg

3. 下載完成后,運(yùn)行容器,創(chuàng)建啟動(dòng)命令。

sudodocker run -d -t
 --net=host
 --gpusall
 --ipc=host
 --name vllm
 -v /data:/data
 --restart=unless-stopped
 nvcr.io/nvidia/vllm:25.10-py3
1756c936-becd-11f0-8c8f-92fbcf53809c.png

注:關(guān)鍵參數(shù)說(shuō)明

-d (detach):后臺(tái)運(yùn)行容器

-t (tty):分配一個(gè)偽終端,方便日志輸出

--name vllm:為容器指定名稱(chēng)"vllm"

--net=host:使用主機(jī)網(wǎng)絡(luò)模式,容器與主機(jī)共享網(wǎng)絡(luò)命名空間

--gpus all:將所有可用的 GPU 設(shè)備暴露給容器

--ipc=host:使用主機(jī)的 IPC 命名空間,改善進(jìn)程間通信性能

-v /data:/data:將主機(jī)的 /data 目錄掛載到容器的 /data 目錄,后面可用于持久化模型文件、配置文件等數(shù)據(jù)

--restart=unless-stopped:Docker 容器的重啟策略參數(shù),表示容器在非人工主動(dòng)停止時(shí)(如崩潰、宿主機(jī)重啟),會(huì)自動(dòng)重啟,但若被手動(dòng)停止,則不會(huì)自動(dòng)恢復(fù)

4. 容器創(chuàng)建成功后,使用docker exec -it vllm /bin/bash命令進(jìn)入此容器。

17b396b6-becd-11f0-8c8f-92fbcf53809c.jpg

三、使用 vLLM 在線下載模型

1. 從 Hugging Face 上下載模型權(quán)重:

通常默認(rèn)的模型下載目錄為:.cache/huggingface/hub/,通過(guò)設(shè)置環(huán)境變量,我們將指定模型下載到:export HF_HOME=/data/huggingface目錄,然后執(zhí)行vllm serve "Qwen/Qwen2.5-Math-1.5B-Instruct",此命令會(huì)從 Hugging Face 上在線拉取下載模型并開(kāi)始運(yùn)行。

180b7b4c-becd-11f0-8c8f-92fbcf53809c.png

2. 等待模型文件下載完成(需科學(xué)上網(wǎng))。

1871ec42-becd-11f0-8c8f-92fbcf53809c.png

注:為方便后續(xù)調(diào)用,建議通過(guò)本地終端確認(rèn)模型已下載到預(yù)設(shè)目錄(如下圖所示)。

18d399f6-becd-11f0-8c8f-92fbcf53809c.png

在沒(méi)有前端的情況下,可以通過(guò) curl 命令向 vLLM 服務(wù)發(fā)送聊天請(qǐng)求。

curl http://localhost:8000/v1/chat/completions 
-H "Content-Type: application/json" 
-d '{
 "model":"Qwen/Qwen2.5-Math-1.5B-Instruct",
 "messages": [{"role":"user","content":"12*17"}],
 "max_tokens":500
}'
19303c9c-becd-11f0-8c8f-92fbcf53809c.png

注:關(guān)鍵參數(shù)說(shuō)明

curl:命令行工具,用于傳輸數(shù)據(jù)

http://localhost:8000:本地服務(wù)器地址和端口

/v1/chat/completions:OpenAI 兼容的聊天補(bǔ)全 API 端點(diǎn)

-H:設(shè)置 HTTP 請(qǐng)求頭

"Content-Type:application/json":指定請(qǐng)求體為 JSON 格式

-d:設(shè)置請(qǐng)求數(shù)據(jù)

"model":"Qwen/Qwen2.5-Math-1.5B-Instruct":指定要使用的模型,這個(gè)名稱(chēng)應(yīng)該與 vLLM 服務(wù)啟動(dòng)時(shí)指定的模型名稱(chēng)一致

"messages:[{"role": "user", "content": "12*17"}]:定義對(duì)話歷史和當(dāng)前消息

消息對(duì)象字段:"role" 指消息角色;"user"指用戶消息,"Content"指消息具體內(nèi)容;"12*17"指用戶提出的數(shù)學(xué)問(wèn)題

"max_tokens":500:限制模型生成的最大 token 數(shù)量

四、使用 vLLM 運(yùn)行本地模型

如前所述,模型已下載保存至本地指定目錄,可以直接通過(guò)其路徑啟動(dòng)服務(wù)。

以上方“Qwen/Qwen2.5-Math-1.5B-Instruct”為例,該模型權(quán)重路徑為:

“/data/huggingface/hub/models--Qwen--Qwen2.5-Math-1.5B-Instruct/snapshots/aafeb0fc6f22cbf0eaeed126eff8be45b0360a35”。

1999a84e-becd-11f0-8c8f-92fbcf53809c.png

執(zhí)行以下命令,即可正常運(yùn)行本地模型。

vllmserve /data/huggingface/hub/models--Qwen--Qwen2.5-Math-1.5B-Instruct/snapshots/aafeb0fc6f22cbf0eaeed126eff8be45b0360a35

五、使用 Chatbox 作為前端調(diào)用 vLLM 運(yùn)行的模型

1. 局域網(wǎng)內(nèi)訪問(wèn) Chatbox 官網(wǎng)(https://chatboxai.app),下載并安裝Windows版本。

2. 點(diǎn)擊“設(shè)置提供方” — “添加”,輸入名稱(chēng),再次點(diǎn)擊“添加”。

19f5c912-becd-11f0-8c8f-92fbcf53809c.png1a5214ce-becd-11f0-8c8f-92fbcf53809c.jpg1ab1a2ea-becd-11f0-8c8f-92fbcf53809c.png

上下滑動(dòng) 點(diǎn)擊查看

3. API 主機(jī)可輸入 Jetson AGX Thor 主機(jī) IP 以及 vLLM 服務(wù)端口號(hào)。

(例:http://192.168.23.107:8000)

1b0a7c44-becd-11f0-8c8f-92fbcf53809c.jpg

4. 選擇 vLLM 運(yùn)行的模型,點(diǎn)擊“+”。

1b622d7c-becd-11f0-8c8f-92fbcf53809c.jpg1bbdab66-becd-11f0-8c8f-92fbcf53809c.jpg

5. 點(diǎn)擊“新對(duì)話”,右下角選擇該模型即可開(kāi)啟對(duì)話。

1c156f36-becd-11f0-8c8f-92fbcf53809c.jpg

6. 運(yùn)行示例

由于 Qwen2.5-Math 是一款數(shù)學(xué)專(zhuān)項(xiàng)大語(yǔ)言模型,我們?cè)诖耸纠釂?wèn)一個(gè)數(shù)學(xué)問(wèn)題,運(yùn)行結(jié)果如下:

1c6c678c-becd-11f0-8c8f-92fbcf53809c.jpg

更多精彩教程,敬請(qǐng)期待!

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5592

    瀏覽量

    109702
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3750

    瀏覽量

    52091
  • 開(kāi)發(fā)環(huán)境

    關(guān)注

    1

    文章

    270

    瀏覽量

    17635
  • Docker
    +關(guān)注

    關(guān)注

    0

    文章

    532

    瀏覽量

    14239

原文標(biāo)題:輕松部署!在 NVIDIA Jetson AGX Thor 上使用 Docker 部署 vLLM 推理服務(wù)

文章出處:【微信號(hào):Leadtek,微信公眾號(hào):麗臺(tái)科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA Jetson AGX Thor Developer Kit開(kāi)發(fā)環(huán)境配置指南

    NVIDIA Jetson AGX Thor 專(zhuān)為物理 AI 打造,與上一代產(chǎn)品 NVIDIA Jets
    的頭像 發(fā)表于 11-08 09:55 ?7243次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> <b class='flag-5'>AGX</b> <b class='flag-5'>Thor</b> Developer Kit開(kāi)發(fā)環(huán)境配置指南

    京東和美團(tuán)已選用NVIDIA Jetson AGX Xavier 平臺(tái)

    電商巨頭選用NVIDIA Jetson AGX Xavier打造下一代配送機(jī)器人 京東、美團(tuán)采用NVIDIA AI計(jì)算平臺(tái),以滿足大量處理需求
    的頭像 發(fā)表于 08-01 14:54 ?1554次閱讀

    何在NVIDIA Jetson AGX Thor部署1200億參數(shù)大模型

    一期介紹了如何在 NVIDIA Jetson AGX Thor
    的頭像 發(fā)表于 12-26 17:06 ?4766次閱讀
    如<b class='flag-5'>何在</b><b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> <b class='flag-5'>AGX</b> <b class='flag-5'>Thor</b>上<b class='flag-5'>部署</b>1200億參數(shù)大模型

    怎么做才能通過(guò)Jetson Xavier AGX構(gòu)建android圖像呢?

    我正在使用 NvidiaJetson Xavier AGX 按照“android 用戶指南”為 imx8 qm Mek 套件構(gòu)建 android 圖像(android 13)。當(dāng)我運(yùn)行命令
    發(fā)表于 06-07 08:58

    NVIDIA Jetson AGX Orin提升邊緣AI標(biāo)桿

    最新發(fā)布的 NVIDIA Jetson AGX Orin 提升邊緣 AI 標(biāo)桿,使我們?cè)谧钚乱惠喰袠I(yè)推理基準(zhǔn)測(cè)試中的領(lǐng)先優(yōu)勢(shì)更加明顯。
    的頭像 發(fā)表于 04-09 08:24 ?2546次閱讀

    使用NVIDIA Jetson AGX Xavier部署新的自主機(jī)器

    Jetson AGX Xavier 目前在 VGG19 推理方面的效率比 Jetson TX2 高 7 倍多,使用 ResNet-50 的效率高 5 倍,考慮到未來(lái)的軟件優(yōu)化和增強(qiáng),效
    的頭像 發(fā)表于 04-18 15:17 ?8078次閱讀

    NVIDIA 推出 Jetson AGX Orin 工業(yè)級(jí)模塊助力邊緣 AI

    Jetson 邊緣 AI 和機(jī)器人平臺(tái) ,您可以在此類(lèi)復(fù)雜的環(huán)境中部署 AI 和傳感器融合算法。 NVIDIA 在 COMPUTEX 2023 發(fā)布了全新
    的頭像 發(fā)表于 06-05 10:45 ?2195次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 <b class='flag-5'>Jetson</b> <b class='flag-5'>AGX</b> Orin 工業(yè)級(jí)模塊助力邊緣 AI

    利用 NVIDIA Jetson 實(shí)現(xiàn)生成式 AI

    交互速率運(yùn)行的 Llama-2-70B 模型。 圖 1. 領(lǐng)先的生成式 AI 模型在? Jetson AGX Orin 推理性能 如要在 Jet
    的頭像 發(fā)表于 11-07 21:25 ?2346次閱讀
    利用 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> 實(shí)現(xiàn)生成式 AI

    NVIDIA Jetson AGX Thor開(kāi)發(fā)者套件概述

    NVIDIA Jetson AGX Thor 開(kāi)發(fā)者套件為您提供出色的性能和可擴(kuò)展性。它由 NVIDIA Blackwell GPU和128
    的頭像 發(fā)表于 08-11 15:03 ?1891次閱讀

    基于 NVIDIA Blackwell 的 Jetson Thor 現(xiàn)已發(fā)售,加速通用機(jī)器人時(shí)代的到來(lái)

    ·專(zhuān)為物理 AI 和機(jī)器人打造的機(jī)器人計(jì)算機(jī) NVIDIA Jetson AGX Thor 開(kāi)發(fā)者套件和量產(chǎn)級(jí)模組,現(xiàn)已發(fā)售。 ·超過(guò) 200 萬(wàn)開(kāi)發(fā)者正在使用
    發(fā)表于 08-26 09:28 ?1299次閱讀
    基于 <b class='flag-5'>NVIDIA</b> Blackwell 的 <b class='flag-5'>Jetson</b> <b class='flag-5'>Thor</b> 現(xiàn)已發(fā)售,加速通用機(jī)器人時(shí)代的到來(lái)

    NVIDIA三臺(tái)計(jì)算機(jī)解決方案如何協(xié)同助力機(jī)器人技術(shù)

    NVIDIA DGX、基于 NVIDIA RTX PRO 服務(wù)器的 Omniverse 和 Cosmos,以及 Jetson AGX
    的頭像 發(fā)表于 08-27 11:48 ?2398次閱讀

    NVIDIA Jetson AGX Thor開(kāi)發(fā)者套件重磅發(fā)布

    開(kāi)發(fā)者與未來(lái)創(chuàng)造者們,準(zhǔn)備好迎接邊緣AI的史詩(shī)級(jí)革新了嗎?NVIDIA以顛覆性技術(shù)再次突破極限,正式推出Jetson AGX Thor開(kāi)發(fā)者套件!作為繼傳奇產(chǎn)品
    的頭像 發(fā)表于 08-28 14:31 ?1550次閱讀

    ADI借助NVIDIA Jetson Thor平臺(tái)加速人形機(jī)器人研發(fā)進(jìn)程

    當(dāng)前,人形機(jī)器人正逐步邁向?qū)嶋H應(yīng)用部署階段,其落地節(jié)奏取決于物理智能與實(shí)時(shí)推理能力的發(fā)展。隨著NVIDIA Jetson Thor平臺(tái)的正式
    的頭像 發(fā)表于 08-29 14:07 ?3149次閱讀

    通過(guò)NVIDIA Jetson AGX Thor實(shí)現(xiàn)7倍生成式AI性能

    Jetson Thor 平臺(tái)還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構(gòu)的新 NVFP4 格式,有助于進(jìn)一步優(yōu)化推理性能。該平臺(tái)同時(shí)支持推測(cè)解碼等新技術(shù)
    的頭像 發(fā)表于 10-29 16:53 ?1414次閱讀

    NVIDIA Jetson系列開(kāi)發(fā)者套件助力打造面向未來(lái)的智能機(jī)器人

    NVIDIA Jetson AGX Thor、AGX Orin 以及 Jetson Orin N
    的頭像 發(fā)表于 12-13 10:20 ?3047次閱讀