91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何在NVIDIA Jetson AGX Thor上部署1200億參數(shù)大模型

麗臺(tái)科技 ? 來(lái)源:麗臺(tái)科技 ? 2025-12-26 17:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

上一期介紹了如何在NVIDIAJetson AGX Thor上使用 Docker 部署 vLLM 推理服務(wù),以及使用 Chatbox 作為前端調(diào)用 vLLM 運(yùn)行的模型(上期文章鏈接)。本期我們將嘗試能否在 Jetson AGX Thor 上部署并成功運(yùn)行高達(dá) 1,200 億參數(shù)量的 gpt-oss-120b 大模型。

gpt-oss-120b 是由 OpenAI 于今年發(fā)布的開(kāi)放權(quán)重 AI 模型,采用了廣受歡迎的混合專家模型(MoE)架構(gòu)和 SwigGLU 激活函數(shù)。其注意力層使用 RoPE 技術(shù),上下文規(guī)模為 128k,交替使用完整上下文和長(zhǎng)度為 128 個(gè) Token 的滑動(dòng)窗口。模型的精度為 FP4,可運(yùn)行在 NVIDIA Blackwell 架構(gòu) GPU 上。

本期具體內(nèi)容包括:

vLLM 鏡像下載及容器構(gòu)建

模型下載與運(yùn)行

使用 Chatbox 作為前端調(diào)用 gpt-oss-120b

Jetson AGX Thor 模型運(yùn)行資源占用及性能

一、vLLM 鏡像下載及容器構(gòu)建

參考上期教程,拉取 vLLM 鏡像并構(gòu)建容器。

1. 在命令行運(yùn)行docker pull nvcr.io/nvidia/vllm:25.10-py3下載容器。

ccd06dee-dc78-11f0-8c8f-92fbcf53809c.png

2. 下載完成后,運(yùn)行容器,創(chuàng)建啟動(dòng)命令。

cd2adb4e-dc78-11f0-8c8f-92fbcf53809c.png

3. 容器創(chuàng)建成功后,使用docker exec -it vllm /bin/bash命令進(jìn)入此容器。

cdac5778-dc78-11f0-8c8f-92fbcf53809c.png

二、模型下載與運(yùn)行

1. 在線下載模型并運(yùn)行

1.1 登錄 Hugging Face,下載 gpt-oss-120b 模型。

容器內(nèi)執(zhí)行huggingface-cli login,輸入 Hugging Face 的token,出現(xiàn)“Login successful”即表示登錄成功。

ce050f6c-dc78-11f0-8c8f-92fbcf53809c.png

注:token 獲取方式為注冊(cè)并登錄 huggingface.co,點(diǎn)擊右上角用戶頭像 -Access Tokens,然后在新頁(yè)面點(diǎn)擊 Create new token,輸入 token name,最后在最下方點(diǎn)擊 Create token,復(fù)制并保存即可。

ce942756-dc78-11f0-8c8f-92fbcf53809c.png

cee834e0-dc78-11f0-8c8f-92fbcf53809c.png

cf51fef2-dc78-11f0-8c8f-92fbcf53809c.png

cfab4e76-dc78-11f0-8c8f-92fbcf53809c.png

上下滑動(dòng)查看圖片

1.2 容器內(nèi)運(yùn)行vllm serve openai/gpt-oss-120b,從 Hugging Face 上在線下載模型并開(kāi)始運(yùn)行。

d019b2f8-dc78-11f0-8c8f-92fbcf53809c.png

1.3 等待模型文件下載完成后(需科學(xué)上網(wǎng)),出現(xiàn) API 端口號(hào)即可進(jìn)行調(diào)用。

d08b6a9c-dc78-11f0-8c8f-92fbcf53809c.png

2. 本地模型運(yùn)行

上述方法會(huì)將模型文件下載至容器的默認(rèn)目錄,再次運(yùn)行時(shí)將直接調(diào)用已下載的文件。為避免容器刪除導(dǎo)致文件丟失,建議將模型文件復(fù)制到本地映射的目錄(如 /data)中進(jìn)行保存。

以在當(dāng)前路徑舉例,命令行執(zhí)行以下代碼,即可保存到本地指定目錄:

cp-r models--openai--gpt-oss-120b /data

d1423394-dc78-11f0-8c8f-92fbcf53809c.png

我們將本地模型文件命名為:local/gpt-oss-120b,容器內(nèi)命令行執(zhí)行以下命令,即可正常運(yùn)行本地模型:

vllm serve
/data/models--openai--gpt-oss-120b/snapshots/b5c939de8f754692c1647ca79f
bf85e8c1e70f8a --served-model-name"local/gpt-oss-120b"

d1a10d88-dc78-11f0-8c8f-92fbcf53809c.png

模型運(yùn)行成功:

d2331d68-dc78-11f0-8c8f-92fbcf53809c.png

三、使用 Chatbox 作為前端調(diào)用 gpt-oss-120b

Chatbox AI 是一款 AI 客戶端應(yīng)用和智能助手,支持眾多先進(jìn)的 AI 模型和 API,可在 Windows、MacOS、AndroidiOS、Linux 和網(wǎng)頁(yè)版上使用。在這里,可以選擇 Chatbox 作為前端調(diào)用 vLLM 運(yùn)行的 gpt-oss-120b 模型,用于本地或在線與 AI 進(jìn)行對(duì)話。

1.參考上期教程,局域網(wǎng)內(nèi)下載安裝 Chatbox Windows 版本,點(diǎn)擊“設(shè)置提供方” — “添加”,輸入模型名稱,再次點(diǎn)擊“添加”。

d29409d4-dc78-11f0-8c8f-92fbcf53809c.png

d2fa6990-dc78-11f0-8c8f-92fbcf53809c.png

d35182ca-dc78-11f0-8c8f-92fbcf53809c.png

上下滑動(dòng)查看圖片

2. API 主機(jī)可輸入 Jetson AGX Thor 主機(jī) IP 以及 vLLM 服務(wù)端口號(hào)。

(例:http://192.168.23.107:8000)

d3c73db2-dc78-11f0-8c8f-92fbcf53809c.png

3. 選擇 vLLM 運(yùn)行的模型,點(diǎn)擊“+”。

d41c62d8-dc78-11f0-8c8f-92fbcf53809c.png

d48f5d74-dc78-11f0-8c8f-92fbcf53809c.png

注:這里同樣可以添加前述步驟已保存或通過(guò)其他方式獲取的模型文件。

d4e6ab60-dc78-11f0-8c8f-92fbcf53809c.png

4. 點(diǎn)擊“新對(duì)話”,右下角選擇該模型即可開(kāi)啟對(duì)話。

d553bee4-dc78-11f0-8c8f-92fbcf53809c.jpg

5. 運(yùn)行示例

我們?cè)诖耸纠釂?wèn)一個(gè)問(wèn)題,運(yùn)行結(jié)果如下:

以上視頻已作 3 倍加速處理

四、Jetson AGX Thor 模型運(yùn)行資源占用及性能

接下來(lái)分析運(yùn)行 gpt-oss-120b 時(shí)的資源使用情況。

命令行執(zhí)行jtop命令,可見(jiàn)加載完模型后,內(nèi)存占用約為 115G

d5aa4642-dc78-11f0-8c8f-92fbcf53809c.png

當(dāng)模型在進(jìn)行推理任務(wù)時(shí),部分 CPU 核心持續(xù)滿載,同時(shí) GPU 使用率也維持在 95% 左右的高位。

d624a130-dc78-11f0-8c8f-92fbcf53809c.png

我們使用 AI 生成的腳本,測(cè)試了輸入 128 tokens、輸出 128 tokens 且并發(fā)數(shù)為 1 時(shí)的吞吐量。

容器內(nèi)執(zhí)行:

# 創(chuàng)建測(cè)試腳本
cat > /tmp/test_performance.py <

滑動(dòng)查看完整代碼

命令行執(zhí)行:

python /tmp/test_performance.py

d67f33ca-dc78-11f0-8c8f-92fbcf53809c.png

d723eee2-dc78-11f0-8c8f-92fbcf53809c.png

根據(jù)上圖的測(cè)試結(jié)果,在單用戶、輸入 / 輸出長(zhǎng)度為 128 tokens、并發(fā)數(shù)為 1 的條件下,系統(tǒng)吞吐量達(dá)到了50.38 tokens / second。這意味著在 Jetson AGX Thor 上能夠流暢運(yùn)行 1,200 億參數(shù)模型。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5592

    瀏覽量

    109707
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5194

    瀏覽量

    135418
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39707

    瀏覽量

    301318
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3647

    瀏覽量

    5176

原文標(biāo)題:邊緣 AI 實(shí)力驗(yàn)證:NVIDIA Jetson AGX Thor 成功駕馭 1200 億參數(shù)大模型

文章出處:【微信號(hào):Leadtek,微信公眾號(hào):麗臺(tái)科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA Jetson AGX Thor Developer Kit開(kāi)發(fā)環(huán)境配置指南

    NVIDIA Jetson AGX Thor 專為物理 AI 打造,與上一代產(chǎn)品 NVIDIA Jets
    的頭像 發(fā)表于 11-08 09:55 ?7244次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> <b class='flag-5'>AGX</b> <b class='flag-5'>Thor</b> Developer Kit開(kāi)發(fā)環(huán)境配置指南

    何在NVIDIA Jetson AGX Thor上通過(guò)Docker高效部署vLLM推理服務(wù)

    繼系統(tǒng)安裝與環(huán)境配置后,本期我們將繼續(xù)帶大家深入 NVIDIA Jetson AGX Thor 的開(kāi)發(fā)教程之旅,了解如何在
    的頭像 發(fā)表于 11-13 14:08 ?4109次閱讀
    如<b class='flag-5'>何在</b><b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> <b class='flag-5'>AGX</b> <b class='flag-5'>Thor</b>上通過(guò)Docker高效<b class='flag-5'>部署</b>vLLM推理服務(wù)

    京東和美團(tuán)已選用NVIDIA Jetson AGX Xavier 平臺(tái)

    電商巨頭選用NVIDIA Jetson AGX Xavier打造下一代配送機(jī)器人 京東、美團(tuán)采用NVIDIA AI計(jì)算平臺(tái),以滿足大量處理需求
    的頭像 發(fā)表于 08-01 14:54 ?1555次閱讀

    Arm方案 基于Arm架構(gòu)的邊緣側(cè)設(shè)備(樹(shù)莓派或 NVIDIA Jetson Nano)上部署PyTorch模型

    本文將為你展示如何在樹(shù)莓派或 NVIDIA Jetson Nano 等基于 Arm 架構(gòu)的邊緣側(cè)設(shè)備上部署 PyTorch 模型。
    的頭像 發(fā)表于 07-28 11:50 ?2867次閱讀

    NVIDIA Jetson的相關(guān)資料分享

    Jetson概述爆炸式增長(zhǎng)的AI模型的復(fù)雜性專為自主機(jī)器開(kāi)發(fā)人員設(shè)計(jì)的AI計(jì)算板加快AI處理的SDK“JetPack”概述NVIDIA Jetson
    發(fā)表于 11-09 08:26

    NVIDIA Jetson介紹

    首發(fā)極術(shù)社區(qū)如對(duì)Arm相關(guān)技術(shù)感興趣,歡迎私信 aijishu20加入技術(shù)微信群。分享內(nèi)容NVIDIA Jetson是嵌入式計(jì)算平臺(tái),具有低功耗、高性能和小體積等特點(diǎn),可加速各行業(yè)的AI應(yīng)用落地
    發(fā)表于 12-14 08:05

    怎么做才能通過(guò)Jetson Xavier AGX構(gòu)建android圖像呢?

    我正在使用 NvidiaJetson Xavier AGX 按照“android 用戶指南”為 imx8 qm Mek 套件構(gòu)建 android 圖像(android 13)。當(dāng)我運(yùn)行命令
    發(fā)表于 06-07 08:58

    NVIDIA Jetson AGX Orin提升邊緣AI標(biāo)桿

    最新發(fā)布的 NVIDIA Jetson AGX Orin 提升邊緣 AI 標(biāo)桿,使我們?cè)谧钚乱惠喰袠I(yè)推理基準(zhǔn)測(cè)試中的領(lǐng)先優(yōu)勢(shì)更加明顯。
    的頭像 發(fā)表于 04-09 08:24 ?2547次閱讀

    NVIDIA 推出 Jetson AGX Orin 工業(yè)級(jí)模塊助力邊緣 AI

    Jetson 邊緣 AI 和機(jī)器人平臺(tái) ,您可以在此類復(fù)雜的環(huán)境中部署 AI 和傳感器融合算法。 NVIDIA 在 COMPUTEX 2023 上發(fā)布了全新 Jetson
    的頭像 發(fā)表于 06-05 10:45 ?2196次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 <b class='flag-5'>Jetson</b> <b class='flag-5'>AGX</b> Orin 工業(yè)級(jí)模塊助力邊緣 AI

    利用 NVIDIA Jetson 實(shí)現(xiàn)生成式 AI

    的無(wú)限可能性。不同于其他嵌入式平臺(tái),Jetson 能夠在本地運(yùn)行大語(yǔ)言模型(LLM)、視覺(jué) Transformer 和 stable diffusion,包括在 Jetson AGX
    的頭像 發(fā)表于 11-07 21:25 ?2346次閱讀
    利用 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> 實(shí)現(xiàn)生成式 AI

    NVIDIA Jetson AGX Thor開(kāi)發(fā)者套件概述

    NVIDIA Jetson AGX Thor 開(kāi)發(fā)者套件為您提供出色的性能和可擴(kuò)展性。它由 NVIDIA Blackwell GPU和128
    的頭像 發(fā)表于 08-11 15:03 ?1891次閱讀

    基于 NVIDIA Blackwell 的 Jetson Thor 現(xiàn)已發(fā)售,加速通用機(jī)器人時(shí)代的到來(lái)

    ·專為物理 AI 和機(jī)器人打造的機(jī)器人計(jì)算機(jī) NVIDIA Jetson AGX Thor 開(kāi)發(fā)者套件和量產(chǎn)級(jí)模組,現(xiàn)已發(fā)售。 ·超過(guò) 200 萬(wàn)開(kāi)發(fā)者正在使用
    發(fā)表于 08-26 09:28 ?1299次閱讀
    基于 <b class='flag-5'>NVIDIA</b> Blackwell 的 <b class='flag-5'>Jetson</b> <b class='flag-5'>Thor</b> 現(xiàn)已發(fā)售,加速通用機(jī)器人時(shí)代的到來(lái)

    NVIDIA Jetson AGX Thor開(kāi)發(fā)者套件重磅發(fā)布

    開(kāi)發(fā)者與未來(lái)創(chuàng)造者們,準(zhǔn)備好迎接邊緣AI的史詩(shī)級(jí)革新了嗎?NVIDIA以顛覆性技術(shù)再次突破極限,正式推出Jetson AGX Thor開(kāi)發(fā)者套件!作為繼傳奇產(chǎn)品
    的頭像 發(fā)表于 08-28 14:31 ?1551次閱讀

    通過(guò)NVIDIA Jetson AGX Thor實(shí)現(xiàn)7倍生成式AI性能

    Jetson Thor 平臺(tái)還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構(gòu)的新 NVFP4 格式,有助于進(jìn)一步優(yōu)化推理性能。該平臺(tái)同時(shí)支持推測(cè)解碼等新技術(shù),為在邊緣端加速生成式 AI 工作負(fù)載提供了
    的頭像 發(fā)表于 10-29 16:53 ?1420次閱讀

    NVIDIA Jetson系列開(kāi)發(fā)者套件助力打造面向未來(lái)的智能機(jī)器人

    NVIDIA Jetson AGX ThorAGX Orin 以及 Jetson Orin N
    的頭像 發(fā)表于 12-13 10:20 ?3049次閱讀