91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

優(yōu)化和加速AI推理:通過NVIDIA NGC的RT容器來實(shí)現(xiàn)

電子設(shè)計(jì) ? 來源:電子設(shè)計(jì) ? 作者:電子設(shè)計(jì) ? 2020-10-21 21:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自然語(yǔ)言處理(NLP)是人工智能最具挑戰(zhàn)性的任務(wù)之一,因?yàn)樗枰斫馍舷挛?、語(yǔ)音和重音才能將人類的言語(yǔ)轉(zhuǎn)化為文本。 構(gòu)建這個(gè)AI工作流程首先要培訓(xùn)一個(gè)能夠理解和處理口語(yǔ)到文本的模型。

BERT是這項(xiàng)任務(wù)的最佳模型之一。 不要從頭開始構(gòu)建像BERT這樣最先進(jìn)的模型,你可以 微調(diào)預(yù)訓(xùn)練的BERT模型 對(duì)于您的特定用例,并將其用于工作 NVIDIA Triton Inference Serve。 有兩個(gè)基于BERT的模型可用:

具有12層、12個(gè)注意頭和1.1億個(gè)參數(shù)的BERT-Base

擁有24層、16個(gè)注意頭和3.4億個(gè)參數(shù)的BERT-Large

這些模型中的許多參數(shù)是稀疏的。 因此,大量的參數(shù)降低了推理的吞吐量。 在這篇文章中,您使用BERT推理作為示例來演示如何利用 傳感器RT容器 from 英偉達(dá)NGC 并獲得一個(gè)性能提升的推理與您的人工智能模型。

本崗位使用以下資源:

The 傳感器流量容器 用于GPU加速訓(xùn)練

一個(gè)系統(tǒng)最多有8個(gè)NVIDIA GPU,例如 DGX-1

其他NVIDIA GPU可以使用,但訓(xùn)練時(shí)間隨GPU的數(shù)量和類型而變化。

基于GPU的實(shí)例可用于所有主要的云服務(wù)提供商。

NVIDIA Docke

The 最新的CUDA司機(jī)

從NGC那里得到資產(chǎn)

在開始BERT優(yōu)化過程之前,您必須從其中獲得一些資產(chǎn) NGC:

一個(gè)微調(diào)的BERT-大模型

TensorFlow中,使用微調(diào)模型運(yùn)行推理的模型腳本

微調(diào)BERT-大型模型

如果你遵循我們以前的帖子, 啟動(dòng)人工智能培訓(xùn)與NGC預(yù)先訓(xùn)練模型在現(xiàn)場(chǎng)和在云 您將看到,我們正在使用相同的微調(diào)模型進(jìn)行優(yōu)化。

如果你沒有機(jī)會(huì)微調(diào)你自己的模型,做一個(gè)目錄并下載預(yù)先訓(xùn)練的模型文件。 你有幾個(gè)下載選項(xiàng)。

備選案文1 :使用以下命令從命令行下載。 在終端,使用 wget 下載微調(diào)模型:

mkdir bert_model && cd bert_model

wget https://api.ngc.nvidia.com/v2/models/nvidia/bert_tf_v1_1_large_fp16_384/versions/2/files/ bert_config.json

wget https://api.ngc.nvidia.com/v2/models/nvidia/bert_tf_v1_1_large_fp16_384/versions/2/files/model.ckpt-5474.data-00000-of-00001

wget https://api.ngc.nvidia.com/v2/models/nvidia/bert_tf_v1_1_large_fp16_384/versions/2/files/model.ckpt-5474.index

wget https://api.ngc.nvidia.com/v2/models/nvidia/bert_tf_v1_1_large_fp16_384/versions/2/files/model.ckpt-5474.meta

wget https://api.ngc.nvidia.com/v2/models/nvidia/bert_tf_v1_1_large_fp16_384/versions/2/files/vocab.txt

備選案文2 *從國(guó)家災(zāi)害管理委員會(huì)網(wǎng)站下載。

在瀏覽器中,導(dǎo)航到 模型回購(gòu)頁(yè)面.

在右上角,選擇 .

壓縮文件下載完成后,解壓文件。

參考微調(diào)模型保存為的目錄 $model_di 。 它可以是您從上一篇文章中保存的模型,也可以是您剛剛下載的模型。

在此目錄下,導(dǎo)出:

export MODEL_DIR=$PWD
cd ..

使用微調(diào)模型運(yùn)行推理的模型腳本

使用以下腳本查看TensorFlow格式的BERT推理的性能。 要下載模型腳本:

在瀏覽器中,導(dǎo)航到 模特腳本頁(yè)面.

在右上方,選擇 .

或者,模型腳本可以使用來自GitHub上的NVIDIA深度學(xué)習(xí)示例的git下載:

mkdir bert_tf && cd bert_tf 
git clone https://github.com/NVIDIA/DeepLearningExamples.git

您正在從BERT目錄中進(jìn)行TensorFlow推理。 無論您是使用NGC網(wǎng)頁(yè)下載還是使用GitHub下載,請(qǐng)參閱此目錄 $bert_di.

導(dǎo)出此目錄如下:

export BERT_DIR=$PWD'/DeepLearningExamples/TensorFlow/LanguageModeling/BERT/'
cd ..

在克隆TensorRT GitHub回購(gòu)之前,運(yùn)行以下命令:

mkdir bert_trt && cd bert_trt

要獲得將BERT TensorFlow模型轉(zhuǎn)換并運(yùn)行到TensorRT所需的腳本,請(qǐng) 下載TensorRT組件 。 確保目錄位置正確:

$model_di—BERT模型檢查點(diǎn)文件的位置。

$bert_di—Location of the BERT TF scripts.

傳感器流量性能評(píng)估

在本節(jié)中,您將構(gòu)建、運(yùn)行和評(píng)估BERT在傳感器流中的性能。

設(shè)置并運(yùn)行Docker容器

通過運(yùn)行以下命令構(gòu)建Docker容器:

docker build $BERT_DIR -t bert

啟動(dòng)BERT容器,有兩個(gè)安裝的卷:

一卷為BERT模型腳本代碼回購(gòu),安裝到 工作空間/艾伯特.

一卷為微調(diào)模型,您要么微調(diào)自己或下載從NGC,安裝到 /微調(diào)-model-bert.

docker run --gpus all -it /
 -v $BERT_DIR:/workspace/bert /
 -v $MODEL_DIR:/微調(diào)-model-bert /
 bert

準(zhǔn)備數(shù)據(jù)集

您正在使用SQUAD數(shù)據(jù)集評(píng)估BERT模型。 有關(guān)更多信息,請(qǐng)參見 SQU AD1.1:斯坦福問答數(shù)據(jù)集.

export BERT_PREP_WORKING_DIR="/workspace/bert/data" 

python3 /workspace/bert/data/ 伯特準(zhǔn)備 --action download --dataset squad

如果行導(dǎo)入 出版物MedTextFormatting 給出任何錯(cuò)誤 bertPrep.py 腳本,注釋這一行,因?yàn)槟恍枰纠械腜ubMed數(shù)據(jù)集。

此腳本下載兩個(gè)文件夾 $BERT_PREP_WORKING_DIR/下載/平方: v2.0/ and v1.1/ 。 為本崗位,使用 v1.1/.

使用TensorFlow模型運(yùn)行評(píng)估

在容器內(nèi),導(dǎo)航到包含模型腳本的BERT工作區(qū):

cd /workspace/bert/

您可以使用TensorFlow中的微調(diào)模型運(yùn)行推理 腳本/run_squad.sh的的。 有關(guān)更多信息,請(qǐng)參見 啟動(dòng)人工智能培訓(xùn)與NGC預(yù)先訓(xùn)練模型在現(xiàn)場(chǎng)和在云.

這個(gè)腳本有兩個(gè)修改。 首先,將其設(shè)置為只預(yù)測(cè)模式:

do_train=假的

--do_predict=True

當(dāng)你手動(dòng)編輯的時(shí)候 do_train=假的 in run_squad.sh ,您傳遞的與培訓(xùn)相關(guān)的參數(shù) run_squad.sh 在這種情況下是不相關(guān)的。

二,從第27行開始注釋出下面的塊:

#if [ "$bert_model" = "large" ] ; then
# export BERT_DIR=data/download/google_pretrained_weights/uncased_L-24_H-1024_A-16
#else
# export BERT_DIR=data/download/google_pretrained_weights/uncased_L-12_H-768_A-12
#fi

因?yàn)槟憧梢缘玫?vocab.txt and bert_config.json 從安裝的目錄 /微調(diào)-model-bert 你不需要這個(gè)代碼塊。

現(xiàn)在,出口集裝箱內(nèi)的BERT_DIR:

export BERT_DIR=/finetuned-model-bert

進(jìn)行修改后,發(fā)出以下命令:

bash scripts/run_squad.sh 1 5e-6 fp16 true 1 384 128 large 1.1 /finetuned-model-bert/model.ckpt<-num>

放正確的檢查點(diǎn)號(hào)碼 <-num> 可用:

INFO:tensorflow:Throughput Average (sentences/sec) = 106.56

我們觀察到,在一個(gè)NVIDIA T4GPU驅(qū)動(dòng)的系統(tǒng)上,在傳感器流中直接運(yùn)行推理的推理速度為每秒106.56句。 性能可能取決于GPU的數(shù)量和GPU的體系結(jié)構(gòu)。

這是很好的表現(xiàn),但它能更好嗎? 通過使用腳本進(jìn)行調(diào)查 /workspace/bert/trt 將TF模型轉(zhuǎn)換為TensorRT7.1,然后在TensorRTBERT模型引擎上進(jìn)行推理。 對(duì)于這個(gè)過程,切換到Tensor RT回購(gòu),并構(gòu)建一個(gè)Docker映像以啟動(dòng)。

發(fā)出以下命令:

exit

傳感器RT性能評(píng)估

在下面的部分中,您將構(gòu)建、運(yùn)行和評(píng)估BERT在傳感器流中的性能。 在繼續(xù)之前,確保您已經(jīng)下載并設(shè)置了 張索爾特Github回購(gòu).

設(shè)置一個(gè)Docker容器

在此步驟中,您將從Dockerfile構(gòu)建并啟動(dòng)用于Tensor RT的Docker映像。

在主機(jī)上,導(dǎo)航到TensorRT目錄:

cd TensorRT

劇本 碼頭/build.sh 構(gòu)建TensorRT碼頭容器:

./docker/build.sh --file docker/ubuntu.Dockerfile --tag tensorrt-ubuntu --os 18.04 --cuda 11.0

容器構(gòu)建后,必須通過執(zhí)行該容器來啟動(dòng)它 包包/包包 劇本。 然而,在啟動(dòng)容器之前,請(qǐng)修改 包包/包包 要添加 -v$MODEL_DIR:/微調(diào)模型-伯特 and -v$BERT_DIR/data/download/squad/v1.1:/data/squad in docker_args 分別傳遞您的微調(diào)模型和團(tuán)隊(duì)數(shù)據(jù)集。

The docker_args 在排隊(duì) 49 應(yīng)該像下面的代碼:

docker_args="$extra_args -v $MODEL_DIR:/finetuned-model-bert -v $BERT_DIR/data/download/squad/v1.1:/data/squad -v $arg_trtrelease:/tensorrt -v $arg_trtsource:/workspace/TensorRT -it $arg_imagename:latest"

現(xiàn)在在本地構(gòu)建并啟動(dòng)Docker映像:

./docker/launch.sh --tag tensorrt-ubuntu --gpus all --release $TRT_RELEASE --source $TRT_SOURCE

當(dāng)您處于容器中時(shí),必須構(gòu)建TensorRT插件:

cd $TRT_SOURCE
export LD_LIBRARY_PATH=`pwd`/build/out:$LD_LIBRARY_PATH:/tensorrt/lib
mkdir -p build && cd build
cmake .. -DTRT_LIB_DIR=$TRT_RELEASE/lib -DTRT_OUT_DIR=`pwd`/out
make -j$(nproc)

pip3 install /tensorrt/python/tensorrt-7.1*-cp36-none-linux_x86_64.whl

現(xiàn)在您已經(jīng)準(zhǔn)備好構(gòu)建BERT傳感器RT引擎了。

搭建TensorRT引擎

制作目錄存儲(chǔ)TensorRT引擎:

mkdir -p /workspace/TensorRT/engines

可選的,探索 /workspace/TensorRTdemo/BERT/scripts/download_model.sh 看看你如何使用它 ngc注冊(cè)模式下載版本 命令從NGC下載模型。

快跑 builder.py 腳本,注意以下值:

到傳感器流模型的路徑 /finetuned-model-bert/model.ckpt-/li>

要構(gòu)建的引擎的輸出路徑

批尺寸1

序列長(zhǎng)度384

精密fp16

檢查站路徑 /finetuned-model-bert

cd /workspace/TensorRT/demo/BERT

python3 builder.py -m /finetuned-model-bert/model.ckpt-5474 -o /workspace/TensorRT/engines/bert_large_384.engine -b 1 -s 384 --fp16 -c /finetuned-model-bert/

確保提供正確的檢查點(diǎn)模型。 腳本需要~1-2分鐘來構(gòu)建TensorRT引擎。

運(yùn)行TensorRT推理

現(xiàn)在運(yùn)行內(nèi)置的TensorRT推理引擎,從2K樣本 SQADV1.1評(píng)估數(shù)據(jù)集 。 要運(yùn)行并獲得吞吐量編號(hào),請(qǐng)從行號(hào)替換代碼 222 收件人行號(hào) 228 in 推斷.py 如下面的代碼塊所示。

注意壓痕。 如果提示符在容器中安裝vim時(shí)請(qǐng)求密碼,請(qǐng)使用密碼nvidia。

    if squad_examples:
eval_time_l = []
all_predictions = collections.OrderedDict()

for example_index, example in enumerate(squad_examples):
print("Processing example {} of {}".format(example_index+1, len(squad_examples)), end="/r")
features = question_features(example.doc_tokens, example.question_text)
eval_time_elapsed, prediction, nbest_json = inference(features, example.doc_tokens)
eval_time_l.append(1.0/eval_time_elapsed)
all_predictions[example.id] = prediction
if example_index+1 == 2000:
break
print("Throughput Average (sentences/sec) = ",np.mean(eval_time_l)) 

現(xiàn)在運(yùn)行推斷:

CUDA_VISIBLE_DEVICES=0 python3 inference.py -e /workspace/TensorRT/engines/bert_large_384.engine -b

1 -s 384 -sq /data/squad/dev-v1.1.json -v /finetuned-model-bert/vocab.txt

Throughput Average (sentences/sec) = 136.59

我們觀察到,在一個(gè)NVIDIAT4GPU驅(qū)動(dòng)的系統(tǒng)上,使用TensorRT7.1運(yùn)行推理的推理速度為每秒136.59句。 性能可能取決于GPU的數(shù)量和GPU的體系結(jié)構(gòu),其中存儲(chǔ)數(shù)據(jù)和其他因素。 然而,由于使用TensorRT進(jìn)行模型優(yōu)化,您將始終觀察到性能提升。

據(jù)顯示,TensorRTBERT引擎的平均吞吐量為136.59句/秒,而BERT模型在TensorFlow中給出的平均吞吐量為106.56句/秒。 這是28%的吞吐量提升。

總結(jié),一覽即刻的,立即的

拉一下 從NGC檢測(cè)RT容器 為了方便和快速地在所有主要框架中調(diào)整您的模型,創(chuàng)建新的低延遲推理應(yīng)用程序,并向客戶提供最佳服務(wù)質(zhì)量(QoS。

關(guān)于作者

關(guān)于Abhishek Sawarka
Abhishek Sawarkar負(fù)責(zé)開發(fā)和展示NVIDIA Jarvis框架上以深度學(xué)習(xí)為重點(diǎn)的內(nèi)容。 他的背景是計(jì)算機(jī)視覺機(jī)器學(xué)習(xí),但目前他正在研究整個(gè)Jarvis多模態(tài)管道,包括ASR、NLP、TTS和CV。 他是卡內(nèi)基梅隆大學(xué)的應(yīng)屆畢業(yè)生,擁有電氣和計(jì)算機(jī)工程碩士學(xué)位。

關(guān)于詹姆斯·索恩
詹姆斯是NVIDIA的深度學(xué)習(xí)技術(shù)營(yíng)銷工程師,專注于多模態(tài)會(huì)話AI框架Jarvis。 詹姆斯獲得了西北大學(xué)機(jī)器人學(xué)碩士學(xué)位,他專注于計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)的人體運(yùn)動(dòng)建模。

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2577

    文章

    55351

    瀏覽量

    793265
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40679

    瀏覽量

    302324
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA攜手微軟加速機(jī)器人和物理AI的發(fā)展

    在 GTC 大會(huì)上,微軟宣布了其代理式和物理 AI 系統(tǒng)統(tǒng)一平臺(tái)的更新,加速從實(shí)驗(yàn)到生產(chǎn)落地的進(jìn)程。將 Microsoft Foundry 與 NVIDIA 開放模型和加速計(jì)算相結(jié)合,
    的頭像 發(fā)表于 03-23 15:21 ?855次閱讀

    是德科技推出全新AI推理仿真平臺(tái)

    NVIDIA GTC大會(huì)上展示該解決方案,并演示其在NVIDIA DSX Air AI工廠仿真環(huán)境中的運(yùn)行情況,實(shí)現(xiàn)對(duì)AI數(shù)據(jù)中心的基礎(chǔ)設(shè)施
    的頭像 發(fā)表于 03-20 17:27 ?786次閱讀
    是德科技推出全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>仿真平臺(tái)

    NVIDIA 擴(kuò)展開放模型系列,推動(dòng)代理式、物理和醫(yī)療 AI 下一階段發(fā)展

    新聞?wù)?●NVIDIA Nemotron 3 全模態(tài)理解模型 (Omni-understanding Models) 為 AI 智能體提供動(dòng)力 ,使其能夠實(shí)現(xiàn)自然對(duì)話、復(fù)雜推理和高
    的頭像 發(fā)表于 03-17 09:18 ?438次閱讀
    <b class='flag-5'>NVIDIA</b> 擴(kuò)展開放模型系列,推動(dòng)代理式、物理和醫(yī)療 <b class='flag-5'>AI</b> 下一階段發(fā)展

    使用NORDIC AI的好處

    ; 自定義 Neuton 模型博客] Axon NPU :集成在 nRF54LM20B 等高端 SoC 中的專用 AI 加速器,對(duì) TensorFlow Lite 模型可實(shí)現(xiàn)最高約 15×
    發(fā)表于 01-31 23:16

    生命科學(xué)領(lǐng)先企業(yè)采用 NVIDIA BioNeMo 平臺(tái)加速 AI 驅(qū)動(dòng)的藥物研發(fā)

    新聞?wù)?l 禮NVIDIA 宣布成立 AI 聯(lián)合創(chuàng)新實(shí)驗(yàn)室以應(yīng)對(duì)藥物研發(fā)挑戰(zhàn)。 l NVIDIA 攜手賽默飛打造自主實(shí)驗(yàn)室基礎(chǔ)設(shè)施,加速
    的頭像 發(fā)表于 01-14 11:40 ?611次閱讀
    生命科學(xué)領(lǐng)先企業(yè)采用 <b class='flag-5'>NVIDIA</b> BioNeMo 平臺(tái)<b class='flag-5'>加速</b> <b class='flag-5'>AI</b> 驅(qū)動(dòng)的藥物研發(fā)

    基于NVIDIA模組與軟件套件推動(dòng)邊緣與機(jī)器人AI推理

    NVIDIA 正式推出 NVIDIA Jetson T4000,將高性能 AI 與實(shí)時(shí)推理能力帶入更廣泛的機(jī)器人和邊緣 AI 應(yīng)用。T400
    的頭像 發(fā)表于 01-14 09:46 ?717次閱讀
    基于<b class='flag-5'>NVIDIA</b>模組與軟件套件推動(dòng)邊緣與機(jī)器人<b class='flag-5'>AI</b><b class='flag-5'>推理</b>

    利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎(chǔ)模型(WFM)的更新,旨在加速物理 AI 模型的測(cè)試與驗(yàn)證數(shù)據(jù)生成。借助 NVID
    的頭像 發(fā)表于 12-01 09:25 ?1322次閱讀

    通過NVIDIA Jetson AGX Thor實(shí)現(xiàn)7倍生成式AI性能

    Jetson Thor 平臺(tái)還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構(gòu)的新 NVFP4 格式,有助于進(jìn)一步優(yōu)化推理性能。該平臺(tái)同時(shí)支持推測(cè)解碼等新技術(shù),為在邊緣端
    的頭像 發(fā)表于 10-29 16:53 ?1568次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為
    的頭像 發(fā)表于 10-21 11:04 ?1324次閱讀

    什么是AI模型的推理能力

    NVIDIA 的數(shù)據(jù)工廠團(tuán)隊(duì)為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?1405次閱讀

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬(wàn)TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIANVIDIA Blackwell 架構(gòu)上優(yōu)化了這兩款全新的開放權(quán)重模型并實(shí)現(xiàn)
    的頭像 發(fā)表于 08-15 20:34 ?2451次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣<b class='flag-5'>加速</b>OpenAI gpt-oss模型部署,<b class='flag-5'>實(shí)現(xiàn)</b>150萬(wàn)TPS<b class='flag-5'>推理</b>

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    網(wǎng)絡(luò)智能診斷平臺(tái)。通過對(duì)私有化網(wǎng)絡(luò)數(shù)據(jù)的定向訓(xùn)練,信而泰打造了高性能、高可靠性的網(wǎng)絡(luò)診斷模型,顯著提升了AI輔助診斷的精準(zhǔn)度與實(shí)用性。該方案實(shí)現(xiàn)了網(wǎng)絡(luò)全流量深度解析能力與AI智能
    發(fā)表于 07-16 15:29

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫(kù),可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2362次閱讀

    NVIDIA攜手微軟加速代理式AI發(fā)展

    代理式 AI 正在重新定義科學(xué)探索,推動(dòng)各行各業(yè)的研究突破和創(chuàng)新發(fā)展。NVIDIA 和微軟正通過深化合作提供先進(jìn)的技術(shù),從云到 PC 加速代理式 A
    的頭像 發(fā)表于 05-27 14:03 ?1176次閱讀

    NVIDIA Cosmos加速機(jī)器人和自動(dòng)駕駛汽車物理AI發(fā)展

    NVIDIA Cosmos 通過可預(yù)測(cè)未來世界狀態(tài)的世界基礎(chǔ)模型加速物理 AI 的發(fā)展。
    的頭像 發(fā)表于 04-24 11:01 ?1447次閱讀
    <b class='flag-5'>NVIDIA</b> Cosmos<b class='flag-5'>加速</b>機(jī)器人和自動(dòng)駕駛汽車物理<b class='flag-5'>AI</b>發(fā)展