91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

HugeCTR系列第2部分:訓(xùn)練大型深度學(xué)習(xí)推薦模型

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:Vinh Nguyen ? 2022-04-02 14:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在 Merlin HugeCTR 博文系列的第一部分,我們討論了訓(xùn)練大型深度學(xué)習(xí)推薦系統(tǒng)所面臨的挑戰(zhàn),以及 HugeCTR 如何解決這些問(wèn)題。

深度學(xué)習(xí)推薦系統(tǒng)可能包含超大型嵌入表,這些嵌入表可能會(huì)超出主機(jī)或 GPU 顯存。

我們專(zhuān)為推薦系統(tǒng)設(shè)計(jì)了 HugeCTR。

這是一個(gè)專(zhuān)門(mén)用于在 GPU 上訓(xùn)練和部署大型推薦系統(tǒng)的框架。

它為在多個(gè) GPU 或節(jié)點(diǎn)上分配單個(gè)嵌入表提供了不同的策略。

HugeCTR 是 NVIDIA Merlin] 的主要訓(xùn)練引擎,后者是一種 GPU 加速框架,旨在為推薦系統(tǒng)工作提供一站式服務(wù),從數(shù)據(jù)準(zhǔn)備、特征工程、多 GPU 訓(xùn)練到本地或云中的生產(chǎn)級(jí)推理。

訓(xùn)練性能和可擴(kuò)展性一直是 HugeCTR 的突出特性,為 MLPerf 訓(xùn)練 v0.7 推薦任務(wù)中的 NVIDIA 獲獎(jiǎng)作品提供支持,但我們近期采納了早期采用者和客戶(hù)的反饋,以幫助改進(jìn)易用性。

這篇博文將著重討論我們?cè)谝子眯苑矫娴某掷m(xù)承諾和近期改進(jìn)。

HugeCTR 是一種定制的深度學(xué)習(xí)框架,使用 CUDA C++ 編寫(xiě),專(zhuān)用于推薦系統(tǒng)。

起初,超參數(shù)和神經(jīng)網(wǎng)絡(luò)架構(gòu)在 JSON 配置中定義,然后通過(guò)命令行接口執(zhí)行。

近期,我們添加了 Python API,使其更易于使用。

表 1 匯總了命令行和 Python API 之間的主要區(qū)別。

我們建議使用 Python API,并將在后面部分中重點(diǎn)介紹。

但是,如果您對(duì)命令行界面感興趣,可以在此處找到一些示例。

表 1:HugeCTR 接口比較。

直接從 Python 配置和訓(xùn)練 HugeCTR

自 v2.3 版本起,HugeCTR 開(kāi)始提供易于使用的 Python 接口,用于定義模型架構(gòu)、超參數(shù)、數(shù)據(jù)加載程序以及訓(xùn)練循環(huán)。

此接口使 HugeCTR 更接近于數(shù)據(jù)科學(xué) Python 生態(tài)系統(tǒng)和實(shí)踐。

利用此接口的方法有兩種:

1. 類(lèi)似于 Keras 的高級(jí) Python API

HugeCTR 現(xiàn)在提供了一個(gè)類(lèi)似 Keras 的高級(jí) Python API 套件,用于定義模型、層、優(yōu)化器和執(zhí)行訓(xùn)練。

下文提供了一個(gè)示例代碼段。

如下所示,此 API 模擬熱門(mén)的 Keras 構(gòu)建-編譯-適應(yīng)范式。

2. 低級(jí) Python API

HugeCTR 低級(jí) Python API 允許從 JSON 文件讀取模型定義和優(yōu)化器配置,從而提供向后兼容性。

此外,此 API 允許使用 Python 循環(huán)不斷手動(dòng)執(zhí)行訓(xùn)練,從而獲得對(duì)訓(xùn)練的精細(xì)控制。

在本博客的動(dòng)手實(shí)踐部分中,我們將詳細(xì)介紹如何使用此 API 基于兩個(gè)數(shù)據(jù)集訓(xùn)練模型。

我們將在以下示例中演示此 API。

使用預(yù)訓(xùn)練的 HugeCTR 模型進(jìn)行預(yù)測(cè)

隨著 v3.0 版本的發(fā)布,HugeCTR 增加了對(duì)基于 GPU 的推理的支持,可生成許多批次的預(yù)測(cè)。

HugeCTR 將參數(shù)服務(wù)器、嵌入緩存和推理會(huì)話分離開(kāi)來(lái),以便更好地管理資源以及更有效地利用 GPU。

參數(shù)服務(wù)器用于加載和管理嵌入表。

對(duì)于超過(guò) GPU 顯存的嵌入表,參數(shù)服務(wù)器將嵌入表存儲(chǔ)在 CPU 內(nèi)存上。

嵌入緩存為模型提供嵌入查找服務(wù)?;顒?dòng)嵌入條目存儲(chǔ)在 GPU 顯存上,以便快速查找。

推理會(huì)話將這兩者與模型權(quán)重和其他參數(shù)結(jié)合起來(lái),以執(zhí)行前向傳播。

下文提供了初始化 HugeCTR 推理的函數(shù)調(diào)用序列示例。

我們將使用 config_file、embedding_cache 和 parameter_server 初始化 InferenceSession。

HugeCTR Python 推理 API 需要一個(gè) JSON 格式的推理配置文件,該文件類(lèi)似于訓(xùn)練配置 JSON。

但是,在添加推理子句時(shí),我們需要省略?xún)?yōu)化器和求解器子句。

我們還需要將輸出層更改為 Sigmoid 類(lèi)型。

推理子句中的 dense_model_file 和 sparse_model_file 參數(shù)應(yīng)設(shè)置為指向由 HugeCTR 訓(xùn)練的模型文件(_dense_xxxx.model 和 0_sparse_xxxx.model)。

我們?cè)?Github 存儲(chǔ)庫(kù)中提供了多個(gè)完整示例:電子商務(wù)行為數(shù)據(jù)集和 Microsoft 新聞數(shù)據(jù)集。

我們一起來(lái)看一些示例

我們?cè)?Github 存儲(chǔ)庫(kù)中提供了 HugeCTR API 的多個(gè)端到端示例。這些筆記本基于實(shí)際數(shù)據(jù)集和應(yīng)用領(lǐng)域提供了完整的 Merlin 演練,從數(shù)據(jù)下載、預(yù)處理和特征工程到模型訓(xùn)練和推理。

1. 高級(jí) Python API 與 Criteo 數(shù)據(jù)集

Criteo 1TB Click Logs 數(shù)據(jù)集是公開(kāi)可用于推薦系統(tǒng)的大型數(shù)據(jù)集。

它包含約 40 億個(gè)示例的 1.3TB 未壓縮點(diǎn)擊日志。

在我們的示例中,數(shù)據(jù)集使用 Pandas 或 NVTabular 進(jìn)行預(yù)處理,以規(guī)范化連續(xù)特征,并對(duì)分類(lèi)特征進(jìn)行分類(lèi)。

之后,我們使用 HugeCTR 的高級(jí) API 訓(xùn)練深度和交叉神經(jīng)網(wǎng)絡(luò)架構(gòu)。

首先,我們定義求解器和優(yōu)化器,以使用它初始化 HugeCTR 模型。

然后,我們可以逐層添加,這類(lèi)似于 TensorFlow Keras API。

最后,我們只需要調(diào)用 .fit() 函數(shù)。

2. 低級(jí) Python API 與電子商務(wù)行為數(shù)據(jù)集

在此演示筆記本中,我們將使用 REES46 營(yíng)銷(xiāo)平臺(tái)中的多品類(lèi)商店的電子商務(wù)行為數(shù)據(jù)[/u]作為我們的數(shù)據(jù)集。

此筆記本基于 RecSys 2020 大會(huì)上的 NVIDIA 教程構(gòu)建而成。

我們使用 NVTabular 進(jìn)行特征工程和預(yù)處理,并使用 HugeCTR 訓(xùn)練 Facebook 深度學(xué)習(xí)推薦系統(tǒng)模型 (DLRM)。

我們針對(duì) Criteo 點(diǎn)擊日志數(shù)據(jù)集改編了一個(gè)示例 Json 配置文件。

需要編輯以與此數(shù)據(jù)集匹配的幾個(gè)參數(shù)為:

slot_size_array:分類(lèi)變量的基數(shù),可以從 NVTabular 工作流程對(duì)象獲取。

dense_dim:密集特征的數(shù)量

slot_num:分類(lèi)變量的數(shù)量

以下 Python 代碼會(huì)按批執(zhí)行參數(shù)更新。

同樣,我們針對(duì) Microsoft 新聞數(shù)據(jù)集提供了第 2 個(gè)示例。

嘗試使用 HugeCTR 的命令行和 Python API 訓(xùn)練推薦系統(tǒng)管線

我們致力于提供用戶(hù)友好且易于使用的體驗(yàn),以簡(jiǎn)化推薦系統(tǒng)工作流程。

我們近期根據(jù)早期采用者和客戶(hù)的反饋對(duì) HugeCTR 接口進(jìn)行了改進(jìn)。

HugeCTR Github 存儲(chǔ)庫(kù)提供了有關(guān)如何基于多個(gè)公共數(shù)據(jù)集(從小型到大型數(shù)據(jù)集都包含在內(nèi))使用此新接口的示例。

我們想邀請(qǐng)您針對(duì)您自己的領(lǐng)域改編這些示例,并見(jiàn)證 Merlin 的處理能力。

和往常一樣,我們希望通過(guò) Github 以及其他渠道獲得您的反饋。

這是我們 HugeCTR 系列中關(guān)于“使用 HugeCTR 的新 API 訓(xùn)練大型深度學(xué)習(xí)推薦系統(tǒng)模型”的第二篇博文。

下一篇博文將討論如何部署到生產(chǎn)。

關(guān)于作者

Vinh Nguyen 是一位深度學(xué)習(xí)的工程師和數(shù)據(jù)科學(xué)家,發(fā)表了 50 多篇科學(xué)文章,引文超過(guò) 2500 篇。在 NVIDIA ,他的工作涉及廣泛的深度學(xué)習(xí)和人工智能應(yīng)用,包括語(yǔ)音、語(yǔ)言和視覺(jué)處理以及推薦系統(tǒng)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5598

    瀏覽量

    109811
  • API
    API
    +關(guān)注

    關(guān)注

    2

    文章

    2383

    瀏覽量

    66818
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124422
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    機(jī)器學(xué)習(xí)深度學(xué)習(xí)中需避免的 7 個(gè)常見(jiàn)錯(cuò)誤與局限性

    ,并驗(yàn)證輸出結(jié)果,就能不斷提升專(zhuān)業(yè)技能,養(yǎng)成優(yōu)秀數(shù)據(jù)科學(xué)家的工作習(xí)慣。需避免的機(jī)器學(xué)習(xí)深度學(xué)習(xí)數(shù)據(jù)錯(cuò)誤在訓(xùn)練數(shù)據(jù)驅(qū)動(dòng)的人工智能模型時(shí),我們
    的頭像 發(fā)表于 01-07 15:37 ?211次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>和<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個(gè)常見(jiàn)錯(cuò)誤與局限性

    【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺(jué)深度學(xué)習(xí)實(shí)戰(zhàn)課(11大系列課程,共5000+分鐘)

    10系列)、YOLOv8-Tiny工業(yè)優(yōu)化版(9系列),滿(mǎn)足產(chǎn)線端設(shè)備算力限制,模型推理速度提升300%。 LabVIEW生態(tài)整合 作
    發(fā)表于 12-04 09:28

    【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺(jué)深度學(xué)習(xí)實(shí)戰(zhàn)課程(11大系列課程,共5000+分鐘)

    10系列)、YOLOv8-Tiny工業(yè)優(yōu)化版(9系列),滿(mǎn)足產(chǎn)線端設(shè)備算力限制,模型推理速度提升300%。 LabVIEW生態(tài)整合 作
    發(fā)表于 12-03 13:50

    集裝箱儲(chǔ)能系統(tǒng)標(biāo)準(zhǔn)解析系列(一)|IEC 62933-2-1:電能存儲(chǔ)(EES)系統(tǒng) 2-1部分-儲(chǔ)能單元參數(shù)和試驗(yàn)方法

    IEC 62933-2-1 電能存儲(chǔ)(EES)系統(tǒng) 2-1部分:儲(chǔ)能單元參數(shù)和試驗(yàn)方法
    的頭像 發(fā)表于 11-25 15:40 ?3458次閱讀
    集裝箱儲(chǔ)能系統(tǒng)標(biāo)準(zhǔn)解析<b class='flag-5'>系列</b>(一)|IEC 62933-<b class='flag-5'>2</b>-1:電能存儲(chǔ)(EES)系統(tǒng) <b class='flag-5'>第</b><b class='flag-5'>2</b>-1<b class='flag-5'>部分</b>-儲(chǔ)能單元參數(shù)和試驗(yàn)方法

    集裝箱儲(chǔ)能系統(tǒng)標(biāo)準(zhǔn)解析系列(三)| IEC TS 62933-4-1電能存儲(chǔ)系統(tǒng)(EES) 4-1部分:環(huán)境問(wèn)題指導(dǎo)

    IEC TS 62933-4-1電能存儲(chǔ)系統(tǒng)(EES) 4-1部分:環(huán)境問(wèn)題指導(dǎo) 通用規(guī)范
    的頭像 發(fā)表于 11-25 15:11 ?427次閱讀
    集裝箱儲(chǔ)能系統(tǒng)標(biāo)準(zhǔn)解析<b class='flag-5'>系列</b>(三)| IEC TS 62933-4-1電能存儲(chǔ)系統(tǒng)(EES) <b class='flag-5'>第</b>4-1<b class='flag-5'>部分</b>:環(huán)境問(wèn)題指導(dǎo)

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)。我們采用jupyter notebook作為開(kāi)發(fā)IDE,以TensorFlow2訓(xùn)練框架,目標(biāo)是
    發(fā)表于 10-22 07:03

    自動(dòng)駕駛中Transformer大模型會(huì)取代深度學(xué)習(xí)嗎?

    持續(xù)討論。特別是在自動(dòng)駕駛領(lǐng)域,部分廠商開(kāi)始嘗試將多模態(tài)大模型(MLLM)引入到感知、規(guī)劃與決策系統(tǒng),引發(fā)了“傳統(tǒng)深度學(xué)習(xí)是否已過(guò)時(shí)”的激烈爭(zhēng)論。然而,從技術(shù)原理、算力成本、安全需求與
    的頭像 發(fā)表于 08-13 09:15 ?4205次閱讀
    自動(dòng)駕駛中Transformer大<b class='flag-5'>模型</b>會(huì)取代<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>嗎?

    超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級(jí)芯片(SoC)上解鎖邊緣人工智能應(yīng)用.

    才能做好。 但是Neuton的推出,這個(gè)障礙現(xiàn)在已經(jīng)不存在。 Neuton 是一個(gè)自動(dòng)生成ML 模型的框架,其大小僅為T(mén)ensorFlow Lite 等傳統(tǒng)框架的一小部分。對(duì)于開(kāi)發(fā)人員來(lái)說(shuō),這意味著 要訓(xùn)練
    發(fā)表于 07-31 11:38

    寧暢與與百度文心大模型展開(kāi)深度技術(shù)合作

    近日,百度正式開(kāi)源文心大模型4.5系列模型。作為文心開(kāi)源合作伙伴,寧暢在模型開(kāi)源首日即實(shí)現(xiàn)即刻部署,做到“開(kāi)源即接入、發(fā)布即可用”。據(jù)悉,文心4.5開(kāi)源
    的頭像 發(fā)表于 07-07 16:26 ?883次閱讀

    龍芯中科與文心系列模型開(kāi)展深度技術(shù)合作

    ”解決方案。 強(qiáng)強(qiáng)聯(lián)合!自主架構(gòu)賦能大模型訓(xùn)練 文心大模型 文心4.5系列模型均使用飛槳深度
    的頭像 發(fā)表于 07-02 16:53 ?1364次閱讀

    海光DCU率先展開(kāi)文心系列模型深度技術(shù)合作 FLOPs利用率(MFU)達(dá)47%

    模型深度技術(shù)適配,預(yù)訓(xùn)練模型FLOPs利用率(MFU)達(dá)到47%,在多個(gè)文本與多模態(tài)基準(zhǔn)測(cè)試中取得SOTA水平。此次合作標(biāo)志著國(guó)產(chǎn)算力基礎(chǔ)設(shè)施與大
    的頭像 發(fā)表于 07-01 14:35 ?2314次閱讀

    兆芯率先展開(kāi)文心系列模型深度技術(shù)合作

    對(duì)文心系列模型的快速適配、無(wú)縫銜接。 ? 文心大模型 ? 文心4.5系列開(kāi)源模型共10款,均使用飛漿
    的頭像 發(fā)表于 07-01 10:49 ?983次閱讀

    模型時(shí)代的深度學(xué)習(xí)框架

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 在 CNN時(shí)代 ,AI模型的參數(shù)規(guī)模都在百萬(wàn)級(jí)別,僅需在單張消費(fèi)類(lèi)顯卡上即可完成訓(xùn)練。例如,以業(yè)界知名的CNN模型: ResNet50 為例,模型
    的頭像 發(fā)表于 04-25 11:43 ?856次閱讀
    大<b class='flag-5'>模型</b>時(shí)代的<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>框架

    用樹(shù)莓派搞深度學(xué)習(xí)?TensorFlow啟動(dòng)!

    介紹本頁(yè)面將指導(dǎo)您在搭載64位Bullseye操作系統(tǒng)的RaspberryPi4上安裝TensorFlow。TensorFlow是一個(gè)專(zhuān)為深度學(xué)習(xí)開(kāi)發(fā)的大型軟件庫(kù),它消耗大量資源。您可以在
    的頭像 發(fā)表于 03-25 09:33 ?1217次閱讀
    用樹(shù)莓派搞<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>?TensorFlow啟動(dòng)!

    云知聲深度參與三項(xiàng)大模型國(guó)家標(biāo)準(zhǔn)編寫(xiě)

    》、20231746-T-469《人工智能 大模型2部分:評(píng)測(cè)指標(biāo)與方法》以及20231741-T-469《人工智能大模型
    的頭像 發(fā)表于 03-18 18:19 ?936次閱讀