国产剧情无码AV,国产内地av日黄韩av,野外毛片在线免费观看

繼系統(tǒng)安裝與環(huán)境配置后，本期我們將繼續(xù)帶大家深入NVIDIAJetson AGX Thor的開(kāi)發(fā)教程之旅，了解如何在 Jetson AGX Thor 上，通過(guò) Docker 高效部署 vLLM 推理服務(wù)。

具體內(nèi)容包括：

vLLM 簡(jiǎn)介與優(yōu)勢(shì)

vLLM Docker 容器構(gòu)建

使用 vLLM 在線下載模型

使用 vLLM 運(yùn)行本地模型

使用 Chatbox 作為前端調(diào)用 vLLM 運(yùn)行的模型

一、vLLM 簡(jiǎn)介與優(yōu)勢(shì)

1什么是 vLLM？

vLLM 是一個(gè)高效的大語(yǔ)言模型推理和服務(wù)引擎，專(zhuān)門(mén)優(yōu)化了注意力機(jī)制和內(nèi)存管理，能夠提供極高的吞吐量。

2在 Jetson AGX Thor 上運(yùn)行 vLLM 的優(yōu)勢(shì)：

PagedAttention 技術(shù)：顯著減少內(nèi)存碎片，提高 GPU 利用率

Continuous Batching 機(jī)制：能夠連續(xù)動(dòng)態(tài)處理不同長(zhǎng)度的請(qǐng)求

開(kāi)源生態(tài)：支持主流開(kāi)源模型（Llama、Qwen、ChatGLM 等）

二、vLLM Docker 容器構(gòu)建

在上一期NVIDIA Jetson AGX Thor Developer Kit 開(kāi)發(fā)環(huán)境配置教程中，我們已經(jīng)完成了 Docker 的安裝與配置，現(xiàn)在，只需要使用 Docker 拉取 vLLM 鏡像即可。

當(dāng)前 Docker 版本

1. 參照上期教程介紹的方法，注冊(cè)并登錄 NGC 之后，搜索 vLLM 進(jìn)入容器頁(yè)面，點(diǎn)擊“Get Container”，復(fù)制鏡像目錄。

2. 在命令行運(yùn)行docker pull nvcr.io/nvidia/vllm:25.10-py3下載鏡像。

3. 下載完成后，運(yùn)行容器，創(chuàng)建啟動(dòng)命令。

sudodocker run -d -t
 --net=host
 --gpusall
 --ipc=host
 --name vllm
 -v /data:/data
 --restart=unless-stopped
 nvcr.io/nvidia/vllm:25.10-py3

注：關(guān)鍵參數(shù)說(shuō)明

-d (detach)：后臺(tái)運(yùn)行容器

-t (tty)：分配一個(gè)偽終端，方便日志輸出

--name vllm：為容器指定名稱(chēng)"vllm"

--net=host：使用主機(jī)網(wǎng)絡(luò)模式，容器與主機(jī)共享網(wǎng)絡(luò)命名空間

--gpus all：將所有可用的 GPU 設(shè)備暴露給容器

--ipc=host：使用主機(jī)的 IPC 命名空間，改善進(jìn)程間通信性能

-v /data:/data：將主機(jī)的 /data 目錄掛載到容器的 /data 目錄，后面可用于持久化模型文件、配置文件等數(shù)據(jù)

--restart=unless-stopped：Docker 容器的重啟策略參數(shù)，表示容器在非人工主動(dòng)停止時(shí)(如崩潰、宿主機(jī)重啟)，會(huì)自動(dòng)重啟，但若被手動(dòng)停止，則不會(huì)自動(dòng)恢復(fù)

4. 容器創(chuàng)建成功后，使用docker exec -it vllm /bin/bash命令進(jìn)入此容器。

三、使用 vLLM 在線下載模型

1. 從 Hugging Face 上下載模型權(quán)重：

通常默認(rèn)的模型下載目錄為：.cache/huggingface/hub/，通過(guò)設(shè)置環(huán)境變量，我們將指定模型下載到：export HF_HOME=/data/huggingface目錄，然后執(zhí)行vllm serve "Qwen/Qwen2.5-Math-1.5B-Instruct"，此命令會(huì)從 Hugging Face 上在線拉取下載模型并開(kāi)始運(yùn)行。

2. 等待模型文件下載完成（需科學(xué)上網(wǎng)）。

注：為方便后續(xù)調(diào)用，建議通過(guò)本地終端確認(rèn)模型已下載到預(yù)設(shè)目錄（如下圖所示）。

在沒(méi)有前端的情況下，可以通過(guò) curl 命令向 vLLM 服務(wù)發(fā)送聊天請(qǐng)求。

curl http://localhost:8000/v1/chat/completions 
-H "Content-Type: application/json" 
-d '{
 "model":"Qwen/Qwen2.5-Math-1.5B-Instruct",
 "messages": [{"role":"user","content":"12*17"}],
 "max_tokens":500
}'

注：關(guān)鍵參數(shù)說(shuō)明

curl：命令行工具，用于傳輸數(shù)據(jù)

http://localhost:8000：本地服務(wù)器地址和端口

/v1/chat/completions：OpenAI 兼容的聊天補(bǔ)全 API 端點(diǎn)

-H：設(shè)置 HTTP 請(qǐng)求頭

"Content-Type：application/json"：指定請(qǐng)求體為 JSON 格式

-d：設(shè)置請(qǐng)求數(shù)據(jù)

"model"："Qwen/Qwen2.5-Math-1.5B-Instruct"：指定要使用的模型，這個(gè)名稱(chēng)應(yīng)該與 vLLM 服務(wù)啟動(dòng)時(shí)指定的模型名稱(chēng)一致

"messages：[{"role": "user", "content": "12*17"}]：定義對(duì)話歷史和當(dāng)前消息

消息對(duì)象字段："role" 指消息角色；"user"指用戶消息，"Content"指消息具體內(nèi)容；"12*17"指用戶提出的數(shù)學(xué)問(wèn)題

"max_tokens"：500：限制模型生成的最大 token 數(shù)量

四、使用 vLLM 運(yùn)行本地模型

如前所述，模型已下載保存至本地指定目錄，可以直接通過(guò)其路徑啟動(dòng)服務(wù)。

以上方“Qwen/Qwen2.5-Math-1.5B-Instruct”為例，該模型權(quán)重路徑為：

“/data/huggingface/hub/models--Qwen--Qwen2.5-Math-1.5B-Instruct/snapshots/aafeb0fc6f22cbf0eaeed126eff8be45b0360a35”。

執(zhí)行以下命令，即可正常運(yùn)行本地模型。

vllmserve /data/huggingface/hub/models--Qwen--Qwen2.5-Math-1.5B-Instruct/snapshots/aafeb0fc6f22cbf0eaeed126eff8be45b0360a35

五、使用 Chatbox 作為前端調(diào)用 vLLM 運(yùn)行的模型

1. 局域網(wǎng)內(nèi)訪問(wèn) Chatbox 官網(wǎng)（https://chatboxai.app），下載并安裝Windows版本。

2. 點(diǎn)擊“設(shè)置提供方” — “添加”，輸入名稱(chēng)，再次點(diǎn)擊“添加”。

上下滑動(dòng) 點(diǎn)擊查看

3. API 主機(jī)可輸入 Jetson AGX Thor 主機(jī) IP 以及 vLLM 服務(wù)端口號(hào)。

（例：http://192.168.23.107:8000）

4. 選擇 vLLM 運(yùn)行的模型，點(diǎn)擊“+”。

5. 點(diǎn)擊“新對(duì)話”，右下角選擇該模型即可開(kāi)啟對(duì)話。

6. 運(yùn)行示例

由于 Qwen2.5-Math 是一款數(shù)學(xué)專(zhuān)項(xiàng)大語(yǔ)言模型，我們?cè)诖耸纠釂?wèn)一個(gè)數(shù)學(xué)問(wèn)題，運(yùn)行結(jié)果如下：

更多精彩教程，敬請(qǐng)期待！

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5592

瀏覽量
109702
模型

模型

+關(guān)注

關(guān)注
1

文章
3750

瀏覽量
52091
開(kāi)發(fā)環(huán)境

開(kāi)發(fā)環(huán)境

+關(guān)注

關(guān)注
1

文章
270

瀏覽量
17635
Docker

Docker

+關(guān)注

關(guān)注
0

文章
532

瀏覽量
14239

原文標(biāo)題：輕松部署！在 NVIDIA Jetson AGX Thor 上使用 Docker 部署 vLLM 推理服務(wù)

文章出處：【微信號(hào)：Leadtek，微信公眾號(hào)：麗臺(tái)科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

如何在NVIDIA Jetson AGX Thor上通過(guò)Docker高效部署vLLM推理服務(wù)

評(píng)論