91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

HugeCTR能夠高效地利用GPU來進行推薦系統(tǒng)的訓練

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 作者:NVIDIA英偉達企業(yè)解 ? 2022-04-01 09:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. Introduction

HugeCTR 能夠高效地利用 GPU 來進行推薦系統(tǒng)的訓練,為了使它還能直接被其他 DL 用戶,比如 TensorFlow 所直接使用,我們開發(fā)了 SparseOperationKit (SOK),來將 HugeCTR 中的高級特性封裝為 TensorFlow 可直接調(diào)用的形式,從而幫助用戶在 TensorFlow 中直接使用 HugeCTR 中的高級特性來加速他們的推薦系統(tǒng)。

796b3d68-b14e-11ec-aa7f-dac502259ad0.png

圖 1. SOK embedding 工作流程

SOK 以數(shù)據(jù)并行的方式接收輸入數(shù)據(jù),然后在 SOK 內(nèi)部做黑盒式地模型轉(zhuǎn)換,最后將計算結(jié)果以數(shù)據(jù)并行的方式傳遞給初始 GPU。這種方式可以盡可能少地修改用戶已有的代碼,以更方便、快捷地在多個 GPU 上進行擴展。

SOK 不僅僅是加速了 TensorFlow 中的算子,而是根據(jù)業(yè)界中的實際需求提供了對應(yīng)的新解決方案,比如說 GPU HashTable。SOK 可以與 TensorFlow 1.15 和 TensorFlow 2.x 兼容使用;既可以使用 TensorFlow 自帶的通信工具,也可以使用 Horovod 等第三方插件來作為 embedding parameters 的通信工具。

2. TF2 Comparison/Performance

使用 MLPerf 的標準模型 DLRM 來對 SOK 的性能進行測試。

798ed8f4-b14e-11ec-aa7f-dac502259ad0.png

圖 2. SOK 性能測試數(shù)據(jù)

相比于 NVIDIA 的 DeepLearning Examples,使用 SOK 可以獲得更快的訓練速度以及更高的吞吐量。

3. API

SOK 提供了簡潔的、類 TensorFlow 的 API;使用 SOK 的方式非常簡單、直接;讓用戶通過修改幾行代碼就可以使用 SOK。

1. 定義模型結(jié)構(gòu)

79ad3c54-b14e-11ec-aa7f-dac502259ad0.png

左側(cè)是使用 TensorFlow 的 API 來搭建模型,右側(cè)是使用 SOK 的 API 來搭建相同的模型。使用 SOK 來搭建模型的時候,只需要將 TensorFlow 中的 Embedding Layer 替換為 SOK 對應(yīng)的 API 即可。

2. 使用 Horovod 來定義 training loop

79d96892-b14e-11ec-aa7f-dac502259ad0.png

同樣的,左側(cè)是使用 TensorFlow 來定義 training loop,右側(cè)是使用 SOK 時,training loop 的定義方式??梢钥吹剑褂?SOK 時,只需要對 Embedding Variables 和 Dense Variables 進行分別處理即可。其中,Embedding Variables 部分由 SOK 管理,Dense Variables 由 TensorFlow 管理。

3. 使用 tf.distribute.MirroredStrategy 來定義 training loop

79f46584-b14e-11ec-aa7f-dac502259ad0.png

類似的,還可以使用 TensorFlow 自帶的通信工具來定義 training loop。

4. 開始訓練

7a0c4bae-b14e-11ec-aa7f-dac502259ad0.png

在開始訓練過程時,使用 SOK 與使用 TensorFlow 時所用代碼完全一致。

4. 結(jié)語

SOK 將 HugeCTR 中的高級特性包裝為 TensorFlow 可以直接使用的模塊,通過修改少數(shù)幾行代碼即可在已有模型代碼中利用上 HugeCTR 的先進設(shè)計。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5200

    瀏覽量

    135538
  • SOK
    SOK
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    6474

原文標題:Merlin HugeCTR Sparse Operation Kit 系列之一

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    GPU 利用率<30%?這款開源智算云平臺讓算力不浪費 1%

    作為 AI 開發(fā)者,你是否早已受夠這些困境:花數(shù)百萬采購的 GPU 集群,利用率常年低于 30%,算力閑置如同燒錢;跨 CPU/GPU/NPU 異構(gòu)資源調(diào)度難如登天,模型訓練卡在資源分
    的頭像 發(fā)表于 01-26 14:20 ?195次閱讀

    在Ubuntu20.04系統(tǒng)訓練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    本帖欲分享在Ubuntu20.04系統(tǒng)訓練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓練框架,目標是訓練一個手寫數(shù)字識
    發(fā)表于 10-22 07:03

    提高RISC-V在Drystone測試中得分的方法

    速度。 優(yōu)化內(nèi)存系統(tǒng):優(yōu)化內(nèi)存控制器設(shè)計,提高內(nèi)存的讀寫速度、降低延遲,或者增大內(nèi)存帶寬。 優(yōu)化指令集和編譯器:通過優(yōu)化或定制指令集,以及優(yōu)化編譯器來生成更高效的機器代碼。 軟件優(yōu)化:對運行的軟件進行優(yōu)化
    發(fā)表于 10-21 13:58

    NVIDIA Isaac Lab多GPU多節(jié)點訓練指南

    NVIDIA Isaac Lab 是一個適用于機器人學習的開源統(tǒng)一框架,基于 NVIDIA Isaac Sim 開發(fā),其模塊化高保真仿真適用于各種訓練環(huán)境,可提供各種物理 AI 功能和由 GPU 驅(qū)動的物理仿真,縮小仿真與現(xiàn)實世界之間的差距。
    的頭像 發(fā)表于 09-23 17:15 ?2432次閱讀
    NVIDIA Isaac Lab多<b class='flag-5'>GPU</b>多節(jié)點<b class='flag-5'>訓練</b>指南

    PCIe協(xié)議分析儀能測試哪些設(shè)備?

    場景:監(jiān)測GPU與主機之間的PCIe通信,分析數(shù)據(jù)傳輸效率、延遲和帶寬利用率。 應(yīng)用價值:優(yōu)化大規(guī)模AI訓練任務(wù)的數(shù)據(jù)加載和模型參數(shù)同步,例如在多GPU
    發(fā)表于 07-25 14:09

    aicube的n卡gpu索引該如何添加?

    請問有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經(jīng)安裝了cuda和cudnn,在全局的py里添加了torch,能夠調(diào)用gpu,當還是只能看到默認的gpu0,顯示不了
    發(fā)表于 07-25 08:18

    如何在Ray分布式計算框架下集成NVIDIA Nsight Systems進行GPU性能分析

    在大語言模型的強化學習訓練過程中,GPU 性能優(yōu)化至關(guān)重要。隨著模型規(guī)模不斷擴大,如何高效地分析和優(yōu)化 GPU 性能成為開發(fā)者面臨的主要挑戰(zhàn)之一。
    的頭像 發(fā)表于 07-23 10:34 ?2426次閱讀
    如何在Ray分布式計算框架下集成NVIDIA Nsight Systems<b class='flag-5'>進行</b><b class='flag-5'>GPU</b>性能分析

    別讓 GPU 故障拖后腿,捷智算GPU維修室救場!

    在AI浪潮洶涌的當下,GPU已然成為眾多企業(yè)與科研機構(gòu)的核心生產(chǎn)力。從深度學習模型訓練,到影視渲染、復(fù)雜科學計算,GPU憑借強大并行計算能力,極大提升運算效率。然而,就像高速運轉(zhuǎn)的精密儀器易出狀況
    的頭像 發(fā)表于 07-17 18:56 ?1163次閱讀
    別讓 <b class='flag-5'>GPU</b> 故障拖后腿,捷智算<b class='flag-5'>GPU</b>維修室<b class='flag-5'>來</b>救場!

    利用API提升電商用戶體驗:個性化推薦系統(tǒng)

    ? 在當今競爭激烈的電商環(huán)境中,個性化推薦系統(tǒng)已成為提升用戶粘性和轉(zhuǎn)化率的核心工具。通過API(Application Programming Interface)集成,電商平臺能夠高效接入先進
    的頭像 發(fā)表于 07-14 14:45 ?611次閱讀
    <b class='flag-5'>利用</b>API提升電商用戶體驗:個性化推薦<b class='flag-5'>系統(tǒng)</b>

    SL3075 dcdc65V耐壓 5A電流高效率降壓芯片替換TPS54340

    某些應(yīng)用場景下,可能無法完全滿足設(shè)計者的需求。本文將介紹一款能夠高效替換TPS54340的芯片——SL3075,詳細闡述其特性、優(yōu)勢及應(yīng)用場景。 SL3075概述SL3075是由深圳市森利威爾電子
    發(fā)表于 07-10 17:25

    Vicor高效電源模塊優(yōu)化自動駕駛系統(tǒng)

    低壓(48V)自動駕駛電動穿梭車配備了先進的自動駕駛系統(tǒng)能夠在復(fù)雜的城市道路上自動行駛。GPU 和傳感器是自動駕駛系統(tǒng)的關(guān)鍵組件,依賴高性能的 ATX 電源。這些電源必須緊湊輕便以適
    的頭像 發(fā)表于 05-26 11:29 ?1011次閱讀

    提升AI訓練性能:GPU資源優(yōu)化的12個實戰(zhàn)技巧

    在人工智能與機器學習技術(shù)迅速發(fā)展的背景下,GPU計算資源的高效利用已成為關(guān)鍵技術(shù)指標。優(yōu)化的GPU資源分配不僅能顯著提升模型訓練速度,還能實
    的頭像 發(fā)表于 05-06 11:17 ?1564次閱讀
    提升AI<b class='flag-5'>訓練</b>性能:<b class='flag-5'>GPU</b>資源優(yōu)化的12個實戰(zhàn)技巧

    電機高效再制造在企業(yè)生產(chǎn)中的應(yīng)用

    電機高效再制造,就是將低效電機通過重新設(shè)計、更換零部件等方法,再制造成高效率電機或適用于特定負載和工況的系統(tǒng)節(jié)能電機(變極電機、變頻電機、永磁電機等)。其目的是使再制造后電機的效率達到IE2(
    發(fā)表于 04-07 17:31

    利用RAKsmart服務(wù)器托管AI模型訓練的優(yōu)勢

    AI模型訓練需要強大的計算資源、高效的存儲和穩(wěn)定的網(wǎng)絡(luò)支持,這對服務(wù)器的性能提出了較高要求。而RAKsmart服務(wù)器憑借其核心優(yōu)勢,成為托管AI模型訓練的理想選擇。下面,AI部落小編為您具體分享。
    的頭像 發(fā)表于 03-18 10:08 ?715次閱讀

    摩爾線程GPU原生FP8計算助力AI訓練

    近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓練策略和高性能算子庫,這兩大框架在國產(chǎn)全功能GPU上實現(xiàn)了高效的混合
    的頭像 發(fā)表于 03-17 17:05 ?1537次閱讀
    摩爾線程<b class='flag-5'>GPU</b>原生FP8計算助力AI<b class='flag-5'>訓練</b>