加勒比黄色网视色五月激情,91免费视频AAA,黄色成人网站a片

自然語(yǔ)言處理(NLP)是人工智能最具挑戰(zhàn)性的任務(wù)之一，因?yàn)樗枰斫馍舷挛?、語(yǔ)音和重音才能將人類的言語(yǔ)轉(zhuǎn)化為文本。構(gòu)建這個(gè)AI工作流程首先要培訓(xùn)一個(gè)能夠理解和處理口語(yǔ)到文本的模型。

BERT是這項(xiàng)任務(wù)的最佳模型之一。不要從頭開始構(gòu)建像BERT這樣最先進(jìn)的模型，你可以微調(diào)預(yù)訓(xùn)練的BERT模型對(duì)于您的特定用例，并將其用于工作 NVIDIA Triton Inference Serve。有兩個(gè)基于BERT的模型可用：

具有12層、12個(gè)注意頭和1.1億個(gè)參數(shù)的BERT-Base

擁有24層、16個(gè)注意頭和3.4億個(gè)參數(shù)的BERT-Large

這些模型中的許多參數(shù)是稀疏的。因此，大量的參數(shù)降低了推理的吞吐量。在這篇文章中，您使用BERT推理作為示例來演示如何利用傳感器RT容器 from 英偉達(dá)NGC 并獲得一個(gè)性能提升的推理與您的人工智能模型。

本崗位使用以下資源：

The 傳感器流量容器用于GPU加速訓(xùn)練

一個(gè)系統(tǒng)最多有8個(gè)NVIDIA GPU，例如 DGX-1

其他NVIDIA GPU可以使用，但訓(xùn)練時(shí)間隨GPU的數(shù)量和類型而變化。

基于GPU的實(shí)例可用于所有主要的云服務(wù)提供商。

NVIDIA Docke

The 最新的CUDA司機(jī)

從NGC那里得到資產(chǎn)

在開始BERT優(yōu)化過程之前，您必須從其中獲得一些資產(chǎn) NGC:

一個(gè)微調(diào)的BERT-大模型

在TensorFlow中，使用微調(diào)模型運(yùn)行推理的模型腳本

微調(diào)BERT-大型模型

如果你遵循我們以前的帖子，啟動(dòng)人工智能培訓(xùn)與NGC預(yù)先訓(xùn)練模型在現(xiàn)場(chǎng)和在云您將看到，我們正在使用相同的微調(diào)模型進(jìn)行優(yōu)化。

如果你沒有機(jī)會(huì)微調(diào)你自己的模型，做一個(gè)目錄并下載預(yù)先訓(xùn)練的模型文件。你有幾個(gè)下載選項(xiàng)。

備選案文1 ：使用以下命令從命令行下載。在終端，使用 wget 下載微調(diào)模型：

mkdir bert_model && cd bert_model

wget https://api.ngc.nvidia.com/v2/models/nvidia/bert_tf_v1_1_large_fp16_384/versions/2/files/ bert_config.json

wget https://api.ngc.nvidia.com/v2/models/nvidia/bert_tf_v1_1_large_fp16_384/versions/2/files/model.ckpt-5474.data-00000-of-00001

wget https://api.ngc.nvidia.com/v2/models/nvidia/bert_tf_v1_1_large_fp16_384/versions/2/files/model.ckpt-5474.index

wget https://api.ngc.nvidia.com/v2/models/nvidia/bert_tf_v1_1_large_fp16_384/versions/2/files/model.ckpt-5474.meta

wget https://api.ngc.nvidia.com/v2/models/nvidia/bert_tf_v1_1_large_fp16_384/versions/2/files/vocab.txt

備選案文2 *從國(guó)家災(zāi)害管理委員會(huì)網(wǎng)站下載。

在瀏覽器中，導(dǎo)航到模型回購(gòu)頁(yè)面.

在右上角，選擇 .

壓縮文件下載完成后，解壓文件。

參考微調(diào)模型保存為的目錄 $model_di 。它可以是您從上一篇文章中保存的模型，也可以是您剛剛下載的模型。

在此目錄下，導(dǎo)出：

export MODEL_DIR=$PWD
cd ..

使用微調(diào)模型運(yùn)行推理的模型腳本

使用以下腳本查看TensorFlow格式的BERT推理的性能。要下載模型腳本：

在瀏覽器中，導(dǎo)航到模特腳本頁(yè)面.

在右上方，選擇 .

或者，模型腳本可以使用來自GitHub上的NVIDIA深度學(xué)習(xí)示例的git下載：

mkdir bert_tf && cd bert_tf 
git clone https://github.com/NVIDIA/DeepLearningExamples.git

您正在從BERT目錄中進(jìn)行TensorFlow推理。無論您是使用NGC網(wǎng)頁(yè)下載還是使用GitHub下載，請(qǐng)參閱此目錄 $bert_di.

導(dǎo)出此目錄如下：

export BERT_DIR=$PWD'/DeepLearningExamples/TensorFlow/LanguageModeling/BERT/'
cd ..

在克隆TensorRT GitHub回購(gòu)之前，運(yùn)行以下命令：

mkdir bert_trt && cd bert_trt

要獲得將BERT TensorFlow模型轉(zhuǎn)換并運(yùn)行到TensorRT所需的腳本，請(qǐng) 下載TensorRT組件。確保目錄位置正確：

$model_di—BERT模型檢查點(diǎn)文件的位置。

$bert_di—Location of the BERT TF scripts.

傳感器流量性能評(píng)估

在本節(jié)中，您將構(gòu)建、運(yùn)行和評(píng)估BERT在傳感器流中的性能。

設(shè)置并運(yùn)行Docker容器

通過運(yùn)行以下命令構(gòu)建Docker容器：

docker build $BERT_DIR -t bert

啟動(dòng)BERT容器，有兩個(gè)安裝的卷：

一卷為BERT模型腳本代碼回購(gòu)，安裝到工作空間/艾伯特.

一卷為微調(diào)模型，您要么微調(diào)自己或下載從NGC，安裝到 /微調(diào)-model-bert.

docker run --gpus all -it /
 -v $BERT_DIR:/workspace/bert /
 -v $MODEL_DIR:/微調(diào)-model-bert /
 bert

準(zhǔn)備數(shù)據(jù)集

您正在使用SQUAD數(shù)據(jù)集評(píng)估BERT模型。有關(guān)更多信息，請(qǐng)參見 SQU AD1.1：斯坦福問答數(shù)據(jù)集.

export BERT_PREP_WORKING_DIR="/workspace/bert/data" 

python3 /workspace/bert/data/ 伯特準(zhǔn)備 --action download --dataset squad

如果行導(dǎo)入出版物MedTextFormatting 給出任何錯(cuò)誤 bertPrep.py 腳本，注釋這一行，因?yàn)槟恍枰纠械腜ubMed數(shù)據(jù)集。

此腳本下載兩個(gè)文件夾 $BERT_PREP_WORKING_DIR/下載/平方: v2.0/ and v1.1/ 。為本崗位，使用 v1.1/.

使用TensorFlow模型運(yùn)行評(píng)估

在容器內(nèi)，導(dǎo)航到包含模型腳本的BERT工作區(qū)：

cd /workspace/bert/

您可以使用TensorFlow中的微調(diào)模型運(yùn)行推理腳本/run_squad.sh的的。有關(guān)更多信息，請(qǐng)參見啟動(dòng)人工智能培訓(xùn)與NGC預(yù)先訓(xùn)練模型在現(xiàn)場(chǎng)和在云.

這個(gè)腳本有兩個(gè)修改。首先，將其設(shè)置為只預(yù)測(cè)模式：

do_train=假的

--do_predict=True

當(dāng)你手動(dòng)編輯的時(shí)候 do_train=假的 in run_squad.sh ，您傳遞的與培訓(xùn)相關(guān)的參數(shù) run_squad.sh 在這種情況下是不相關(guān)的。

二，從第27行開始注釋出下面的塊：

#if [ "$bert_model" = "large" ] ; then
# export BERT_DIR=data/download/google_pretrained_weights/uncased_L-24_H-1024_A-16
#else
# export BERT_DIR=data/download/google_pretrained_weights/uncased_L-12_H-768_A-12
#fi

因?yàn)槟憧梢缘玫?vocab.txt and bert_config.json 從安裝的目錄 /微調(diào)-model-bert 你不需要這個(gè)代碼塊。

現(xiàn)在，出口集裝箱內(nèi)的BERT_DIR：

export BERT_DIR=/finetuned-model-bert

進(jìn)行修改后，發(fā)出以下命令：

bash scripts/run_squad.sh 1 5e-6 fp16 true 1 384 128 large 1.1 /finetuned-model-bert/model.ckpt<-num>

放正確的檢查點(diǎn)號(hào)碼 <-num> 可用：

INFO:tensorflow:Throughput Average (sentences/sec) = 106.56

我們觀察到，在一個(gè)NVIDIA T4GPU驅(qū)動(dòng)的系統(tǒng)上，在傳感器流中直接運(yùn)行推理的推理速度為每秒106.56句。性能可能取決于GPU的數(shù)量和GPU的體系結(jié)構(gòu)。

這是很好的表現(xiàn)，但它能更好嗎？通過使用腳本進(jìn)行調(diào)查 /workspace/bert/trt 將TF模型轉(zhuǎn)換為TensorRT7.1，然后在TensorRTBERT模型引擎上進(jìn)行推理。對(duì)于這個(gè)過程，切換到Tensor RT回購(gòu)，并構(gòu)建一個(gè)Docker映像以啟動(dòng)。

發(fā)出以下命令：

exit

傳感器RT性能評(píng)估

在下面的部分中，您將構(gòu)建、運(yùn)行和評(píng)估BERT在傳感器流中的性能。在繼續(xù)之前，確保您已經(jīng)下載并設(shè)置了張索爾特Github回購(gòu).

設(shè)置一個(gè)Docker容器

在此步驟中，您將從Dockerfile構(gòu)建并啟動(dòng)用于Tensor RT的Docker映像。

在主機(jī)上，導(dǎo)航到TensorRT目錄：

cd TensorRT

劇本碼頭/build.sh 構(gòu)建TensorRT碼頭容器：

./docker/build.sh --file docker/ubuntu.Dockerfile --tag tensorrt-ubuntu --os 18.04 --cuda 11.0

容器構(gòu)建后，必須通過執(zhí)行該容器來啟動(dòng)它包包/包包劇本。然而，在啟動(dòng)容器之前，請(qǐng)修改包包/包包要添加 -v$MODEL_DIR:/微調(diào)模型-伯特 and -v$BERT_DIR/data/download/squad/v1.1：/data/squad in docker_args 分別傳遞您的微調(diào)模型和團(tuán)隊(duì)數(shù)據(jù)集。

The docker_args 在排隊(duì) 49 應(yīng)該像下面的代碼：

docker_args="$extra_args -v $MODEL_DIR:/finetuned-model-bert -v $BERT_DIR/data/download/squad/v1.1:/data/squad -v $arg_trtrelease:/tensorrt -v $arg_trtsource:/workspace/TensorRT -it $arg_imagename:latest"

現(xiàn)在在本地構(gòu)建并啟動(dòng)Docker映像：

./docker/launch.sh --tag tensorrt-ubuntu --gpus all --release $TRT_RELEASE --source $TRT_SOURCE

當(dāng)您處于容器中時(shí)，必須構(gòu)建TensorRT插件：

cd $TRT_SOURCE
export LD_LIBRARY_PATH=`pwd`/build/out:$LD_LIBRARY_PATH:/tensorrt/lib
mkdir -p build && cd build
cmake .. -DTRT_LIB_DIR=$TRT_RELEASE/lib -DTRT_OUT_DIR=`pwd`/out
make -j$(nproc)

pip3 install /tensorrt/python/tensorrt-7.1*-cp36-none-linux_x86_64.whl

現(xiàn)在您已經(jīng)準(zhǔn)備好構(gòu)建BERT傳感器RT引擎了。

搭建TensorRT引擎

制作目錄存儲(chǔ)TensorRT引擎：

mkdir -p /workspace/TensorRT/engines

可選的，探索 /workspace/TensorRTdemo/BERT/scripts/download_model.sh 看看你如何使用它 ngc注冊(cè)模式下載版本命令從NGC下載模型。

快跑 builder.py 腳本，注意以下值：

到傳感器流模型的路徑 /finetuned-model-bert/model.ckpt-/li>

要構(gòu)建的引擎的輸出路徑

批尺寸1

序列長(zhǎng)度384

精密fp16

檢查站路徑 /finetuned-model-bert

cd /workspace/TensorRT/demo/BERT

python3 builder.py -m /finetuned-model-bert/model.ckpt-5474 -o /workspace/TensorRT/engines/bert_large_384.engine -b 1 -s 384 --fp16 -c /finetuned-model-bert/

確保提供正確的檢查點(diǎn)模型。腳本需要~1-2分鐘來構(gòu)建TensorRT引擎。

運(yùn)行TensorRT推理

現(xiàn)在運(yùn)行內(nèi)置的TensorRT推理引擎，從2K樣本 SQADV1.1評(píng)估數(shù)據(jù)集。要運(yùn)行并獲得吞吐量編號(hào)，請(qǐng)從行號(hào)替換代碼 222 收件人行號(hào) 228 in 推斷.py 如下面的代碼塊所示。

注意壓痕。如果提示符在容器中安裝vim時(shí)請(qǐng)求密碼，請(qǐng)使用密碼nvidia。

    if squad_examples:
eval_time_l = []
all_predictions = collections.OrderedDict()

for example_index, example in enumerate(squad_examples):
print("Processing example {} of {}".format(example_index+1, len(squad_examples)), end="/r")
features = question_features(example.doc_tokens, example.question_text)
eval_time_elapsed, prediction, nbest_json = inference(features, example.doc_tokens)
eval_time_l.append(1.0/eval_time_elapsed)
all_predictions[example.id] = prediction
if example_index+1 == 2000:
break
print("Throughput Average (sentences/sec) = ",np.mean(eval_time_l))

現(xiàn)在運(yùn)行推斷：

CUDA_VISIBLE_DEVICES=0 python3 inference.py -e /workspace/TensorRT/engines/bert_large_384.engine -b

1 -s 384 -sq /data/squad/dev-v1.1.json -v /finetuned-model-bert/vocab.txt

Throughput Average (sentences/sec) = 136.59

我們觀察到，在一個(gè)NVIDIAT4GPU驅(qū)動(dòng)的系統(tǒng)上，使用TensorRT7.1運(yùn)行推理的推理速度為每秒136.59句。性能可能取決于GPU的數(shù)量和GPU的體系結(jié)構(gòu)，其中存儲(chǔ)數(shù)據(jù)和其他因素。然而，由于使用TensorRT進(jìn)行模型優(yōu)化，您將始終觀察到性能提升。

據(jù)顯示，TensorRTBERT引擎的平均吞吐量為136.59句/秒，而BERT模型在TensorFlow中給出的平均吞吐量為106.56句/秒。這是28%的吞吐量提升。

總結(jié)，一覽即刻的，立即的

拉一下從NGC檢測(cè)RT容器為了方便和快速地在所有主要框架中調(diào)整您的模型，創(chuàng)建新的低延遲推理應(yīng)用程序，并向客戶提供最佳服務(wù)質(zhì)量(QoS。

關(guān)于作者

關(guān)于Abhishek Sawarka
Abhishek Sawarkar負(fù)責(zé)開發(fā)和展示NVIDIA Jarvis框架上以深度學(xué)習(xí)為重點(diǎn)的內(nèi)容。他的背景是計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)，但目前他正在研究整個(gè)Jarvis多模態(tài)管道，包括ASR、NLP、TTS和CV。他是卡內(nèi)基梅隆大學(xué)的應(yīng)屆畢業(yè)生，擁有電氣和計(jì)算機(jī)工程碩士學(xué)位。

關(guān)于詹姆斯·索恩
詹姆斯是NVIDIA的深度學(xué)習(xí)技術(shù)營(yíng)銷工程師，專注于多模態(tài)會(huì)話AI框架Jarvis。詹姆斯獲得了西北大學(xué)機(jī)器人學(xué)碩士學(xué)位，他專注于計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)的人體運(yùn)動(dòng)建模。

審核編輯黃昊宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

傳感器

傳感器

+關(guān)注

關(guān)注
2577

文章
55351

瀏覽量
793265
AI

AI

+關(guān)注

關(guān)注
91

文章
40679

瀏覽量
302324

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

優(yōu)化和加速AI推理：通過NVIDIA NGC的RT容器來實(shí)現(xiàn)

評(píng)論