91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA GPU助力騰訊PCG加速無量推薦系統(tǒng)

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-13 14:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

案例簡(jiǎn)介

? 本案例中通過使用 NVIDIA GPU 加速平臺(tái),騰訊平臺(tái)與內(nèi)容事業(yè)群(PCG)深度學(xué)習(xí)平臺(tái)實(shí)現(xiàn)了”無量推薦系統(tǒng)”模型訓(xùn)練到在線推理的全流程GPU加速,整體效能性價(jià)比提升1~3倍。

? 本案例主要應(yīng)用到 NVIDIA A100 Tensor Core GPU以及相關(guān)軟件的加速平臺(tái)。

客戶簡(jiǎn)介及應(yīng)用背景

無量推薦系統(tǒng)承載著騰訊平臺(tái)與內(nèi)容事業(yè)群的推薦場(chǎng)景, 包括: 騰訊看點(diǎn)(瀏覽器,QQ看點(diǎn),商業(yè)化),騰訊新聞,騰訊視頻, 騰訊音樂,閱文,應(yīng)用寶,小鵝拼拼等。無量推薦系統(tǒng)支持日活躍用戶達(dá)數(shù)億級(jí)別, 其中的模型數(shù)量達(dá)數(shù)千個(gè),日均調(diào)用服務(wù)達(dá)到千億級(jí)別。

無量推薦系統(tǒng)在模型訓(xùn)練和推理都能夠進(jìn)行海量Embedding和DNN模型的GPU計(jì)算, 是目前業(yè)界領(lǐng)先的體系結(jié)構(gòu)設(shè)計(jì)。

客戶挑戰(zhàn)

傳統(tǒng)推薦系統(tǒng)具有以下特點(diǎn): 訓(xùn)練是基于參數(shù)服務(wù)器的框架,解決海量數(shù)據(jù)和稀疏特征的分布式訓(xùn)練問題。推理通常分離大規(guī)模Embedding和DNN,只能進(jìn)行DNN的GPU加速。

所以,傳統(tǒng)的推薦系統(tǒng)架構(gòu)也具有局限性:

大規(guī)模分布式架構(gòu)有大量的額外開銷,比如參數(shù)和梯度的網(wǎng)絡(luò)收發(fā)。

隨著DNN模型復(fù)雜性的的進(jìn)一步提升,CPU的計(jì)算速度開始捉襟見肘。

隨著業(yè)務(wù)的快速增長(zhǎng),日活用戶增多,對(duì)其調(diào)用數(shù)量快速增加,給推薦系統(tǒng)后臺(tái)帶來了新的挑戰(zhàn):

1, 模型更加復(fù)雜,計(jì)算量更大,但是參數(shù)服務(wù)器的分布式架構(gòu)有效計(jì)算比很低。

2, 海量Embedding因?yàn)橐?guī)模龐大,查詢和聚合計(jì)算難以有效利用GPU高性能顯存和算力的優(yōu)勢(shì)。

應(yīng)用方案

基于以上的挑戰(zhàn), 騰訊選擇使用基于NVIDIA A100 Tensor Core GPU的分布式系統(tǒng)架構(gòu)來創(chuàng)建無量推薦系統(tǒng)。

1, 通過多級(jí)存儲(chǔ)和Pipeline優(yōu)化,在HPC上完成大規(guī)模推薦模型的GPU的高性能訓(xùn)練。

2, 基于特征訪問Power-law分布的特性,GPU緩存高頻特征參數(shù),同時(shí)從CPU中動(dòng)態(tài)獲取低頻特征參數(shù),實(shí)現(xiàn)了大規(guī)模推薦模型完整的GPU端到端模型推理。

使用效果及影響

騰訊平臺(tái)與內(nèi)容事業(yè)群有多種類型的推薦業(yè)務(wù)場(chǎng)景。比如信息流推薦的QQ瀏覽器、QQ看點(diǎn),新聞推薦的騰訊新聞,視頻推薦的騰訊視頻、微視,App推薦的應(yīng)用寶,以及騰訊音樂的音樂推薦和閱文集團(tuán)的文學(xué)推薦。

無量推薦系統(tǒng)承載了這些推薦業(yè)務(wù)場(chǎng)景的模型訓(xùn)練和推理服務(wù)。基于傳統(tǒng)的推薦系統(tǒng)架構(gòu),無量使用大量CPU資源,通過分布式架構(gòu)可以擴(kuò)展到TB級(jí)模型的訓(xùn)練和部署,取得了巨大的成功。

隨著業(yè)務(wù)的快速增長(zhǎng),日活用戶增多,對(duì)其調(diào)用數(shù)量快速增加,傳統(tǒng)架構(gòu)局限性限制了推薦系統(tǒng)的架構(gòu)擴(kuò)展和性能提升。

通過使用GPU訓(xùn)練和推理,單機(jī)多卡的GPU算力可以達(dá)到數(shù)十臺(tái)CPU機(jī)器的算力,節(jié)省了大量的額外分布式開銷。通過充分利用A100 GPU高性能顯存快速訪問Embedding,以及并行算力處理DNN推理,單張A100 GPU可以在相同的延遲下推理10倍于CPU的打分樣本。

目前基于GPU的推薦架構(gòu)可以提升模型訓(xùn)練和推理性價(jià)比1~3倍。

展望未來,無量推薦系統(tǒng)將不斷優(yōu)化推薦模型在GPU上的應(yīng)用,利用HPC多機(jī)多卡,混合精度等能力,進(jìn)一步提高推薦場(chǎng)景使用GPU的性價(jià)比。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5606

    瀏覽量

    109847
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5204

    瀏覽量

    135578
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評(píng)測(cè)

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升級(jí)迭代產(chǎn)品,其各項(xiàng)核心指標(biāo)均針對(duì) GPU 加速工作流的
    的頭像 發(fā)表于 01-06 09:51 ?2588次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的深度評(píng)測(cè)

    NVIDIA RTX PRO 2000 Blackwell GPU性能測(cè)試

    越來越多的應(yīng)用正在使用 AI 加速,而無論工作站的大小或形態(tài)如何,都有越來越多的用戶需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的頭像 發(fā)表于 11-28 09:39 ?6424次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 Blackwell <b class='flag-5'>GPU</b>性能測(cè)試

    NVIDIA推出NVQLink高速互連架構(gòu)

    NVIDIA 推出 NVIDIA NVQLink,這是一種開放式系統(tǒng)架構(gòu),可將 GPU 計(jì)算的極致性能與量子處理器緊密結(jié)合,以構(gòu)建加速的量子
    的頭像 發(fā)表于 11-03 14:53 ?740次閱讀

    FPGA和GPU加速的視覺SLAM系統(tǒng)中特征檢測(cè)器研究

    Nvidia Jetson Orin與AMD Versal)上最佳GPU加速方案(FAST、Harris、SuperPoint)與對(duì)應(yīng)FPGA加速方案的性能,得出全新結(jié)論。
    的頭像 發(fā)表于 10-31 09:30 ?691次閱讀
    FPGA和<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>的視覺SLAM<b class='flag-5'>系統(tǒng)</b>中特征檢測(cè)器研究

    OpenAI和NVIDIA宣布達(dá)成合作,部署10吉瓦NVIDIA系統(tǒng)

    此次合作將助力 OpenAI 構(gòu)建和部署至少 10 吉瓦(gigawatt)的 AI 數(shù)據(jù)中心,這些數(shù)據(jù)中心將采用 NVIDIA 系統(tǒng),包含數(shù)百萬塊 NVIDIA
    的頭像 發(fā)表于 09-23 14:37 ?1442次閱讀
    OpenAI和<b class='flag-5'>NVIDIA</b>宣布達(dá)成合作,部署10吉瓦<b class='flag-5'>NVIDIA</b><b class='flag-5'>系統(tǒng)</b>

    NVIDIA RTX PRO 4500 Blackwell GPU測(cè)試分析

    今天我們帶來全新 NVIDIA Blackwell 架構(gòu) GPU —— NVIDIA RTX PRO 4500 Blackwell 的測(cè)試,對(duì)比上一代產(chǎn)品 NVIDIA RTX 450
    的頭像 發(fā)表于 08-28 11:02 ?4035次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>測(cè)試分析

    NVIDIA桌面GPU系列擴(kuò)展新產(chǎn)品

    NVIDIA 桌面 GPU 系列擴(kuò)展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的頭像 發(fā)表于 08-18 11:50 ?1455次閱讀

    安森美助力NVIDIA AI系統(tǒng)檢測(cè)實(shí)驗(yàn)室

    物理AI正在為自動(dòng)駕駛和機(jī)器人開發(fā)技術(shù)的交叉領(lǐng)域釋放新的可能性,尤其是加速了自動(dòng)駕駛汽車的開發(fā)。正確的技術(shù)與框架對(duì)確保自動(dòng)駕駛汽車駕駛員、乘客和行人的安全至關(guān)重要。近日,NVIDIA推出
    的頭像 發(fā)表于 07-10 16:21 ?841次閱讀

    NVIDIA技術(shù)助力歐洲廠商推出機(jī)器人系統(tǒng)與平臺(tái)

    基于 NVIDIA 安全的全棧機(jī)器人開發(fā)平臺(tái),Agile?Robots、Humanoid、Neura?Robotics、Universal Robots、Vorwerk?和?Wandelbots 等公司推出 NVIDIA 加速
    的頭像 發(fā)表于 06-16 13:54 ?1510次閱讀

    借助NVIDIA技術(shù)加速半導(dǎo)體芯片制造

    NVIDIA Blackwell GPU、NVIDIA Grace CPU、高速 NVIDIA NVLink 網(wǎng)絡(luò)架構(gòu)和交換機(jī),以及諸如 NVIDI
    的頭像 發(fā)表于 05-27 13:59 ?1127次閱讀

    NVIDIA虛擬GPU 18.0版本的亮點(diǎn)

    NVIDIA 虛擬 GPU(vGPU)技術(shù)可在虛擬桌面基礎(chǔ)設(shè)施(VDI)中解鎖 AI 功能,使其比以往更加強(qiáng)大、用途更加廣泛。vGPU 通過為各種虛擬化環(huán)境中的 AI 驅(qū)動(dòng)工作負(fù)載提供動(dòng)力,提高了
    的頭像 發(fā)表于 04-07 11:28 ?1458次閱讀

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)

    NVIDIA GTC 推出新一代專業(yè)級(jí) GPU 和 AI 賦能的開發(fā)者工具—同時(shí),ChatRTX 更新現(xiàn)已支持 NVIDIA NIM,RTX Remix 正式結(jié)束測(cè)試階段,本月的 NVIDIA
    的頭像 發(fā)表于 03-28 09:59 ?1322次閱讀

    NVIDIA助力解決量子計(jì)算領(lǐng)域重大挑戰(zhàn)

    NVIDIA 加速量子研究中心提供了強(qiáng)大的工具,助力解決量子計(jì)算領(lǐng)域的重大挑戰(zhàn)。
    的頭像 發(fā)表于 03-27 09:17 ?1304次閱讀

    NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本

    隨著 NVIDIA 推出 Aether 項(xiàng)目,通過采用 NVIDIA 加速的 Apache Spark 企業(yè)得以自動(dòng)加速其數(shù)據(jù)中心規(guī)模的分析工作負(fù)載,從而節(jié)省數(shù)百萬美元。
    的頭像 發(fā)表于 03-25 15:09 ?1188次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b>的Apache Spark<b class='flag-5'>助力</b>企業(yè)節(jié)省大量成本

    Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計(jì)算和推理軟件與 Oracle 的 AI 基礎(chǔ)設(shè)施以及生成式 AI 服務(wù)首次實(shí)現(xiàn)集成,以幫助全球企業(yè)組織加速創(chuàng)建代理式
    發(fā)表于 03-19 15:24 ?585次閱讀
    Oracle 與 <b class='flag-5'>NVIDIA</b> 合作<b class='flag-5'>助力</b>企業(yè)<b class='flag-5'>加速</b>代理式 AI 推理