91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA A30 GPU加速AI推理工作負載

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-05-16 09:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA A30 GPU 基于最新的 NVIDIA Ampere 體系結(jié)構(gòu),可加速各種工作負載,如大規(guī)模人工智能推理、企業(yè)培訓和數(shù)據(jù)中心主流服務(wù)器的 HPC 應(yīng)用程序。 A30 PCIe 卡將第三代 Tensor 內(nèi)核與大容量 HBM2 內(nèi)存( 24 GB )和快速 GPU 內(nèi)存帶寬( 933 GB / s )組合在一個低功耗外殼中(最大 165 W )。

A30 支持廣泛的數(shù)學精度:

雙精度( FP64 )

單精度( FP32 )

半精度( FP16 )

腦浮 16 ( BF16 )

整數(shù)( INT8 )

它還支持 Tensor Float 32 ( TF32 )和 Tensor Core FP64 等創(chuàng)新技術(shù),提供了一個單一的加速器來加速每個工作負載。

圖 1 顯示了 TF32 ,其范圍為 FP32 ,精度為 FP16 。 TF32 是 PyTorch 、 TensorFlow 和 MXNet 中的默認選項,因此在上一代 NVIDIA Volta 架構(gòu)中實現(xiàn)加速不需要更改代碼。

A30 的另一個重要特點是多實例 GPU ( MIG )能力。 MIG 可以最大限度地提高從大到小工作負載的 GPU 利用率,并確保服務(wù)質(zhì)量( QoS )。單個 A30 最多可以被劃分為四個 MIG 實例,以同時運行四個應(yīng)用程序,每個應(yīng)用程序都與自己的流式多處理器( SMs )、內(nèi)存、二級緩存、 DRAM 帶寬和解碼器完全隔離。有關(guān)更多信息,請參閱 支持的 MIG 配置文件 。

對于互連, A30 支持 PCIe Gen4 ( 64 GB / s )和高速第三代 NVLink (最大 200 GB / s )。每個 A30 都可以支持一個 NVLink 橋接器與一個相鄰的 A30 卡連接。只要服務(wù)器中存在一對相鄰的 A30 卡,這對卡就應(yīng)該通過跨越兩個 PCIe 插槽的 NVLink 橋接器連接,以獲得最佳橋接性能和平衡的橋接拓撲。

性能和平衡的橋接拓撲。

poYBAGKBqBmALH-VAABBLLMJLWQ255.png

除了表 1 中總結(jié)的硬件優(yōu)勢外, A30 可以實現(xiàn)比 T4 GPU 更高的每美元性能。 A30 還支持端到端軟件堆棧解決方案:

圖書館

GPU 加速了 PyTorch 、 TensorFlow 和 MXNet 等深度學習框架

優(yōu)化的深度學習模型

可從 NGC 和[2000]以上的容器中獲得

性能分析

為了分析 A30 相對于 T4 和 CPU 的性能改進,我們使用以下數(shù)據(jù)集對 MLPerf 推斷 v1.1 。 中的六個模型進行了基準測試:

ResNet-50v1 。 5 ( ImageNet )

SSD 大尺寸 ResNet-34 ( COCO )

3D Unet (布拉茨 2019 )

DLRM ( 1TB 點擊日志,離線場景)

BERT (第 1.1 版,第 384 小節(jié))

RNN-T (圖書館語言)

MLPerf 基準測試套件 涵蓋了廣泛的推理用例,從圖像分類和對象檢測到推薦,以及自然語言處理( NLP )。

圖 2 顯示了 A30 與 T4 和 BERT 在人工智能推理工作負載上的性能比較結(jié)果。對于 CPU 推斷, A30 比 CPU 快約 300 倍。

與T4相比,A30在使用這六種機型進行推理時提供了大約3-4倍的性能加速比。性能加速是由于30個較大的內(nèi)存大小。這使得模型的批量更大,內(nèi)存帶寬更快(幾乎是3倍T4),可以在更短的時間內(nèi)將數(shù)據(jù)發(fā)送到計算核心。

pYYBAGKBqAaAZWaAAACGpnmS5vk955.png

圖 2 使用 MLPerf 比較 A30 與 T4 和 CPU 的性能。

CPU:8380H (不在 3D Unet 上提交)

除了人工智能推理之外, A30 還可以快速預(yù)訓練人工智能模型,例如 BERT 大型 TF32 ,以及使用 FP64 張量核加速 HPC 應(yīng)用。帶有 TF32 的 A30 Tensor Cores 的性能比 T4 高出 10 倍,無需對代碼進行任何更改。它們還提供了自動混合精度的額外 2 倍提升,使吞吐量增加了 20 倍。

硬件解碼器

在構(gòu)建視頻分析或視頻處理管道時,必須考慮以下幾個操作:

計算模型或預(yù)處理步驟的需求。 這取決于 Tensor 內(nèi)核、 GPU DRAM 和其他硬件組件,它們可以加速模型或幀預(yù)處理內(nèi)核。

傳輸前的視頻流編碼。 這樣做是為了最小化網(wǎng)絡(luò)上所需的帶寬。為了加快這一工作量,請使用 NVIDIA 硬件解碼器。

pYYBAGKBqAmAUZqIAACM1qWslYA962.png

圖 3 在不同 GPU 上處理的流的數(shù)量

使用 DeepStream 5.1 測試性能。它代表了 e2e 在視頻捕獲和解碼、預(yù)處理、批處理、推理和后處理方面的性能。已關(guān)閉輸出渲染以獲得最佳性能,運行 ResNet10 、 ResNet18 和 ResNet50 網(wǎng)絡(luò)以推斷 H.264 1080p30 視頻流。

A30 旨在通過提供四個視頻解碼器、一個 JPEG 解碼器和一個光流解碼器來加速智能視頻分析( IVA )。

要使用這些解碼器和計算資源來分析視頻,請使用 NVIDIA DeepStream SDK ,它為基于人工智能的多傳感器處理、視頻、音頻和圖像理解提供了一個完整的流分析工具包。有關(guān)更多信息,請參閱 TAO 工具包與 DeepStream 的集成 或者 使用 NVIDIA DeepStream 構(gòu)建實時編校應(yīng)用程序,第 1 部分:培訓 。

接下來呢?

A30 代表了數(shù)據(jù)中心最強大的端到端人工智能和 HPC 平臺,使研究人員、工程師和數(shù)據(jù)科學家能夠交付真實世界的結(jié)果,并將解決方案大規(guī)模部署到生產(chǎn)中。有關(guān)更多信息,請參閱 NVIDIA A30 Tensor Core GPU 數(shù)據(jù)表 和 NVIDIA A30 GPU 加速器產(chǎn)品簡介 。

關(guān)于作者

Maggie Zhang 是 NVIDIA 的深度學習工程師,致力于深度學習框架和應(yīng)用程序。她在澳大利亞新南威爾士大學獲得計算機科學和工程博士學位,在那里她從事 GPU / CPU 異構(gòu)計算和編譯器優(yōu)化。

Tanay Varshney 是 NVIDIA 的一名深入學習的技術(shù)營銷工程師,負責廣泛的 DL 軟件產(chǎn)品。他擁有紐約大學計算機科學碩士學位,專注于計算機視覺、數(shù)據(jù)可視化和城市分析的橫斷面。

Davide Onofrio 是 NVIDIA 的高級深度學習軟件技術(shù)營銷工程師。他在 NVIDIA 專注于深度學習技術(shù)開發(fā)人員關(guān)注內(nèi)容的開發(fā)和演示。戴維德在生物特征識別、虛擬現(xiàn)實和汽車行業(yè)擔任計算機視覺和機器學習工程師已有多年經(jīng)驗。他的教育背景包括米蘭理工學院的信號處理博士學位。Ivan Belyavtsev 是一名圖形開發(fā)工程師,主要致力于開發(fā)人員支持和優(yōu)化基于虛擬引擎的游戲。他還是 Innopolis 大學游戲開發(fā)領(lǐng)域的計算機圖形學導師。

Shar Narasimhan 是 AI 的高級產(chǎn)品營銷經(jīng)理,專門從事 NVIDIA 的 Tesla 數(shù)據(jù)中心團隊的深度學習培訓和 OEM 業(yè)務(wù)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5597

    瀏覽量

    109785
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50102

    瀏覽量

    265514
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124406
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    NVIDIA DGX SuperPOD為Rubin平臺橫向擴展提供藍圖

    NVIDIA DGX Rubin 系統(tǒng)整合了 NVIDIA 在計算、網(wǎng)絡(luò)和軟件領(lǐng)域的最新突破,將推理 token 成本降至 NVIDIA Blackwell 平臺的十分之一,可
    的頭像 發(fā)表于 01-14 09:14 ?619次閱讀

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評測

    需求進行了優(yōu)化設(shè)計。無論是 CUDA 核心計算性能、實時渲染能力,還是 AI 推理效率,亦或顯存帶寬與容量的顯著提升,均使得新一代 RTX PRO 5000 Blackwell GPU 能夠輕松應(yīng)對更復雜、更嚴苛的
    的頭像 發(fā)表于 01-06 09:51 ?2388次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的深度評測

    NVIDIA RTX PRO 2000 Blackwell GPU性能測試

    越來越多的應(yīng)用正在使用 AI 加速,而無論工作站的大小或形態(tài)如何,都有越來越多的用戶需要 AI 性能。NVIDIA RTX PRO 2000
    的頭像 發(fā)表于 11-28 09:39 ?6341次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 Blackwell <b class='flag-5'>GPU</b>性能測試

    通過NVIDIA Jetson AGX Thor實現(xiàn)7倍生成式AI性能

    Jetson Thor 平臺還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構(gòu)的新 NVFP4 格式,有助于進一步優(yōu)化推理性能。該平臺同時支持推測解碼等新技術(shù),為在邊緣端
    的頭像 發(fā)表于 10-29 16:53 ?1435次閱讀

    BPI-AIM7 RK3588 AINvidia Jetson Nano 生態(tài)系統(tǒng)兼容的低功耗 AI 模塊

    。它是開源硬件,我們已在線發(fā)布設(shè)計文檔,包括原理圖和接口定義。其異構(gòu)計算架構(gòu)兼容 NVIDIA Jetson Nano 接口標準,非常適合邊緣計算、AI 推理、VR/AR、智能 NVR 系統(tǒng)以及通用
    發(fā)表于 10-11 09:08

    通過NVIDIA RTX PRO服務(wù)器加速企業(yè)工作負載

    從大語言模型(LLM)到代理式 AI 推理和物理 AI ,隨著 AI 工作負載的復雜性和規(guī)模不斷
    的頭像 發(fā)表于 06-12 15:31 ?939次閱讀
    通過<b class='flag-5'>NVIDIA</b> RTX PRO服務(wù)器<b class='flag-5'>加速</b>企業(yè)<b class='flag-5'>工作</b><b class='flag-5'>負載</b>

    NVIDIA虛擬GPU 18.0版本的亮點

    NVIDIA 虛擬 GPU(vGPU)技術(shù)可在虛擬桌面基礎(chǔ)設(shè)施(VDI)中解鎖 AI 功能,使其比以往更加強大、用途更加廣泛。vGPU 通過為各種虛擬化環(huán)境中的 AI 驅(qū)動
    的頭像 發(fā)表于 04-07 11:28 ?1441次閱讀

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)

    NVIDIA GTC 推出新一代專業(yè)級 GPUAI 賦能的開發(fā)者工具—同時,ChatRTX 更新現(xiàn)已支持 NVIDIA NIM,RTX Remix 正式結(jié)束測試階段,本月的
    的頭像 發(fā)表于 03-28 09:59 ?1307次閱讀

    英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理

    Oracle 數(shù)據(jù)庫與 NVIDIA AI 相集成,使企業(yè)能夠更輕松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA
    的頭像 發(fā)表于 03-21 12:01 ?1445次閱讀
    英偉達GTC2025亮點:Oracle與<b class='flag-5'>NVIDIA</b>合作助力企業(yè)<b class='flag-5'>加速</b>代理式<b class='flag-5'>AI</b><b class='flag-5'>推理</b>

    英偉達GTC2025亮點:NVIDIA與行業(yè)領(lǐng)先存儲企業(yè)共同推出面向AI時代的新型企業(yè)基礎(chǔ)設(shè)施

    的參考設(shè)計,領(lǐng)先的存儲提供商可用來構(gòu)建全新的 AI 基礎(chǔ)設(shè)施,以滿足 AI 推理工作負載的嚴苛要求:即企業(yè)存儲平臺,搭載由 NVIDIA
    的頭像 發(fā)表于 03-21 09:42 ?1330次閱讀

    英偉達GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代

    英偉達GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代
    的頭像 發(fā)表于 03-20 15:35 ?1567次閱讀

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30NVIDIA 發(fā)布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速
    的頭像 發(fā)表于 03-20 15:03 ?1247次閱讀

    Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計算和推理軟件與 Oracle 的 AI 基礎(chǔ)設(shè)施以及生成式
    發(fā)表于 03-19 15:24 ?580次閱讀
    Oracle 與 <b class='flag-5'>NVIDIA</b> 合作助力企業(yè)<b class='flag-5'>加速</b>代理式 <b class='flag-5'>AI</b> <b class='flag-5'>推理</b>

    NVIDIA 與行業(yè)領(lǐng)先的存儲企業(yè)共同推出面向 AI 時代的新型企業(yè)基礎(chǔ)設(shè)施

    3 月 18 日 —— NVIDIA 今日推出了 NVIDIA AI 數(shù)據(jù)平臺 —— 一項可自定義的參考設(shè)計,領(lǐng)先的存儲提供商可用來構(gòu)建全新的 AI 基礎(chǔ)設(shè)施,以滿足
    發(fā)表于 03-19 10:11 ?499次閱讀
    <b class='flag-5'>NVIDIA</b> 與行業(yè)領(lǐng)先的存儲企業(yè)共同推出面向 <b class='flag-5'>AI</b> 時代的新型企業(yè)基礎(chǔ)設(shè)施

    NVIDIA 推出開放推理 AI 模型系列,助力開發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺

    、德勤、IQVIA、微軟、SAP 和 ServiceNow 與 NVIDIA 合作,率先推出推理 AI 智能體,改變工作方式 ? ? ? 美國加利福尼亞州圣何塞 —— ?GTC ——
    發(fā)表于 03-19 09:31 ?396次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開放<b class='flag-5'>推理</b> <b class='flag-5'>AI</b> 模型系列,助力開發(fā)者和企業(yè)構(gòu)建代理式 <b class='flag-5'>AI</b> 平臺