国产精品黑丝在线视频,久草视频2000,久久在线亚洲v一区在线

上一期介紹了如何在NVIDIAJetson AGX Thor上使用 Docker 部署 vLLM 推理服務(wù)，以及使用 Chatbox 作為前端調(diào)用 vLLM 運(yùn)行的模型（上期文章鏈接）。本期我們將嘗試能否在 Jetson AGX Thor 上部署并成功運(yùn)行高達(dá) 1,200 億參數(shù)量的 gpt-oss-120b 大模型。

gpt-oss-120b 是由 OpenAI 于今年發(fā)布的開(kāi)放權(quán)重 AI 模型，采用了廣受歡迎的混合專家模型（MoE）架構(gòu)和 SwigGLU 激活函數(shù)。其注意力層使用 RoPE 技術(shù)，上下文規(guī)模為 128k，交替使用完整上下文和長(zhǎng)度為 128 個(gè) Token 的滑動(dòng)窗口。模型的精度為 FP4，可運(yùn)行在 NVIDIA Blackwell 架構(gòu) GPU 上。

本期具體內(nèi)容包括：

vLLM 鏡像下載及容器構(gòu)建

模型下載與運(yùn)行

使用 Chatbox 作為前端調(diào)用 gpt-oss-120b

Jetson AGX Thor 模型運(yùn)行資源占用及性能

一、vLLM 鏡像下載及容器構(gòu)建

參考上期教程，拉取 vLLM 鏡像并構(gòu)建容器。

1. 在命令行運(yùn)行docker pull nvcr.io/nvidia/vllm:25.10-py3下載容器。

2. 下載完成后，運(yùn)行容器，創(chuàng)建啟動(dòng)命令。

3. 容器創(chuàng)建成功后，使用docker exec -it vllm /bin/bash命令進(jìn)入此容器。

二、模型下載與運(yùn)行

1. 在線下載模型并運(yùn)行

1.1 登錄 Hugging Face，下載 gpt-oss-120b 模型。

容器內(nèi)執(zhí)行huggingface-cli login，輸入 Hugging Face 的token，出現(xiàn)“Login successful”即表示登錄成功。

注：token 獲取方式為注冊(cè)并登錄 huggingface.co，點(diǎn)擊右上角用戶頭像 -Access Tokens，然后在新頁(yè)面點(diǎn)擊 Create new token，輸入 token name，最后在最下方點(diǎn)擊 Create token，復(fù)制并保存即可。

上下滑動(dòng)查看圖片

1.2 容器內(nèi)運(yùn)行vllm serve openai/gpt-oss-120b，從 Hugging Face 上在線下載模型并開(kāi)始運(yùn)行。

1.3 等待模型文件下載完成后（需科學(xué)上網(wǎng)），出現(xiàn) API 端口號(hào)即可進(jìn)行調(diào)用。

2. 本地模型運(yùn)行

上述方法會(huì)將模型文件下載至容器的默認(rèn)目錄，再次運(yùn)行時(shí)將直接調(diào)用已下載的文件。為避免容器刪除導(dǎo)致文件丟失，建議將模型文件復(fù)制到本地映射的目錄（如 /data）中進(jìn)行保存。

以在當(dāng)前路徑舉例，命令行執(zhí)行以下代碼，即可保存到本地指定目錄：

cp-r models--openai--gpt-oss-120b /data

我們將本地模型文件命名為：local/gpt-oss-120b，容器內(nèi)命令行執(zhí)行以下命令，即可正常運(yùn)行本地模型：

vllm serve
/data/models--openai--gpt-oss-120b/snapshots/b5c939de8f754692c1647ca79f
bf85e8c1e70f8a --served-model-name"local/gpt-oss-120b"

模型運(yùn)行成功：

三、使用 Chatbox 作為前端調(diào)用 gpt-oss-120b

Chatbox AI 是一款 AI 客戶端應(yīng)用和智能助手，支持眾多先進(jìn)的 AI 模型和 API，可在 Windows、MacOS、Android、iOS、Linux 和網(wǎng)頁(yè)版上使用。在這里，可以選擇 Chatbox 作為前端調(diào)用 vLLM 運(yùn)行的 gpt-oss-120b 模型，用于本地或在線與 AI 進(jìn)行對(duì)話。

1.參考上期教程，局域網(wǎng)內(nèi)下載安裝 Chatbox Windows 版本，點(diǎn)擊“設(shè)置提供方” — “添加”，輸入模型名稱，再次點(diǎn)擊“添加”。

上下滑動(dòng)查看圖片

2. API 主機(jī)可輸入 Jetson AGX Thor 主機(jī) IP 以及 vLLM 服務(wù)端口號(hào)。

（例：http://192.168.23.107:8000）

3. 選擇 vLLM 運(yùn)行的模型，點(diǎn)擊“+”。

注：這里同樣可以添加前述步驟已保存或通過(guò)其他方式獲取的模型文件。

4. 點(diǎn)擊“新對(duì)話”，右下角選擇該模型即可開(kāi)啟對(duì)話。

5. 運(yùn)行示例

我們?cè)诖耸纠釂?wèn)一個(gè)問(wèn)題，運(yùn)行結(jié)果如下：

以上視頻已作 3 倍加速處理

四、Jetson AGX Thor 模型運(yùn)行資源占用及性能

接下來(lái)分析運(yùn)行 gpt-oss-120b 時(shí)的資源使用情況。

命令行執(zhí)行jtop命令，可見(jiàn)加載完模型后，內(nèi)存占用約為 115G。

當(dāng)模型在進(jìn)行推理任務(wù)時(shí)，部分 CPU 核心持續(xù)滿載，同時(shí) GPU 使用率也維持在 95% 左右的高位。

我們使用 AI 生成的腳本，測(cè)試了輸入 128 tokens、輸出 128 tokens 且并發(fā)數(shù)為 1 時(shí)的吞吐量。

容器內(nèi)執(zhí)行：

# 創(chuàng)建測(cè)試腳本
cat > /tmp/test_performance.py <

	

	滑動(dòng)查看完整代碼

	命令行執(zhí)行:

	
python /tmp/test_performance.py

	

	

	

	根據(jù)上圖的測(cè)試結(jié)果，在單用戶、輸入 / 輸出長(zhǎng)度為 128 tokens、并發(fā)數(shù)為 1 的條件下，系統(tǒng)吞吐量達(dá)到了50.38 tokens / second。這意味著在 Jetson AGX Thor 上能夠流暢運(yùn)行 1,200 億參數(shù)模型。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5592

瀏覽量
109707
gpu

gpu

+關(guān)注

關(guān)注
28

文章
5194

瀏覽量
135418
AI

AI

+關(guān)注

關(guān)注
91

文章
39707

瀏覽量
301318
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3647

瀏覽量
5176

原文標(biāo)題：邊緣 AI 實(shí)力驗(yàn)證：NVIDIA Jetson AGX Thor 成功駕馭 1200 億參數(shù)大模型

文章出處：【微信號(hào)：Leadtek，微信公眾號(hào)：麗臺(tái)科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

如何在NVIDIA Jetson AGX Thor上部署1200億參數(shù)大模型

評(píng)論