91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于TensorFlow的阿里巴巴本地生活推薦系統(tǒng)

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-11 17:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

案例簡介

本案例中,阿里巴巴本地生活場景中,部署了大量使用 TensorFlow深度學(xué)習推薦模型,這些模型需要對每個用戶附近的數(shù)千家商戶和產(chǎn)品進行排名,對用戶響應(yīng)時間和業(yè)務(wù)吞吐量(QPS)要求極高。為了滿足這樣的要求 GPU 落地使用是必然,但由于 TensorFlow 目前對 GPU 使用采用單一 steam 方式,并且逐個調(diào)用 GPU 算子的過程中存在大量的 GPU kernel 啟動開銷, 因此如何在這些系統(tǒng)中充分發(fā)揮 GPU 計算能力則需要探索。

阿里巴巴本地生活推薦系統(tǒng)結(jié)合 NVIDIA CUDA Graphs 對 GPU 進行算力釋放優(yōu)化,讓推理過程單機吞吐增長 110%,耗時 P99 下降 66.7%。

本案例主要應(yīng)用到 NVIDIA V100 Tensor Core GPU 和 NVIDA CUDA Graphs。

客戶簡介及應(yīng)用背景

阿里巴巴集團旗下的阿里巴巴本地生活服務(wù)公司,是由餓了么和口碑會師合并組成國內(nèi)領(lǐng)先的本地生活服務(wù)平臺,使命是“重新定義城市生活,讓生活更美好?!笨诒畬W⒌降晗M服務(wù),餓了么專注到家生活服務(wù),蜂鳥即配專注即時配送服務(wù),客如云專注為商家提供數(shù)字化升級的產(chǎn)品和服務(wù),共同推動本地生活市場的數(shù)字化,讓天下沒有難做的生意。

阿里巴巴本地生活服務(wù)公司智能推薦系統(tǒng)基于智能AI系統(tǒng)對用戶所在區(qū)域萬級商戶商品進行實時智能推薦和服務(wù)。實時智能推薦伴隨著深度學(xué)習技術(shù)的發(fā)展,為了追求智能推薦的準確度,推薦模型朝著兩個維度快速發(fā)展:1. 更寬更深的網(wǎng)絡(luò),更復(fù)雜的特征增強方式。2. 更多的不同維度的特征。這對在線推理階段的實時性能和算力提出了更高的挑戰(zhàn)。伴隨著搜索推薦模型的在 GPU 的廣泛落地使用,GPU 在各個場景下的算力優(yōu)化也被廣泛關(guān)注。

在線 Inference 過程中,由于考慮到存儲 cache 的友好性,會把計算密集型算子和其周邊的數(shù)據(jù)變換算子都在 GPU 中執(zhí)行,算子數(shù)量的增長會導(dǎo)致嚴重的 kernel 啟動開銷,主要原因是:1. 大量小 kernel 的執(zhí)行

2. TensorFlow 的調(diào)度機制使得通過大量的線程啟動 kernel 到同一個 stream 中;多個線程競爭同個資源加劇 launch 開銷。

客戶挑戰(zhàn)

在阿里巴巴本地生活推薦搜索場景中,有大量的深度學(xué)習模型在用戶和商戶,用戶和商品匹配場景中使用,但是總體來看 GPU-Utilization 并不高,GPU 使用成本顯得比較高。隨著模型復(fù)雜度不斷攀升(Inference 計算達到 10~20 GFLOPS),算法同學(xué)的收益產(chǎn)出一定程度上和模型復(fù)雜度成正比關(guān)系。目前搜推廣的模型設(shè)計中部分子結(jié)構(gòu)設(shè)計和變換很多,但是基本范式如下:

Feature Generation -》 Embedding -》 Attention/Transformer -》 MLP

綠色部分基本屬于計算密集型部分,但是在搜推廣場景中,這部分算子不但包含對于算力需求旺盛的深度網(wǎng)絡(luò)相關(guān)算子,也包含數(shù)據(jù)合并,數(shù)據(jù)變換等輕量級計算算子,這類算子的特點是:運算時長通常很短(1-10 微秒),而且這一類輕量級計算算子的數(shù)量伴隨著 Transformer 的落地,數(shù)量占比逐步增高。

我們從另一個角度來量化這一過程輕量級計算算子的數(shù)量占比,GPU 的繁忙情況通常來說有兩個指標:

1. GPU-Utilization,表示 GPU 在單位時間內(nèi)在執(zhí)行 kernel 的時間片比例。

2. SM Activity,表示 GPU 中 SM 在單位時間內(nèi)用于執(zhí)行 kernel 的 SM 使用比例*時間片比例。

我們可以看到在推薦搜索模型線上 Inference 過程中 SM Activity 通常遠遠低于 GPU-Utilization,這表示 GPU 雖然在忙碌,但是由于輕量級計算算子的數(shù)量占比較高,SM 使用比例使用比例不高,GPU 的實際 “工作量” 并不大。

輕量級計算算子的比例高會導(dǎo)致該部分算子在 CPU 上調(diào)度過程中 kernel launch 的執(zhí)行時長遠遠大于算子在 GPU 上的執(zhí)行時長,這個現(xiàn)象會導(dǎo)致嚴重的 kernel launch bound 現(xiàn)象。

pYYBAGJT9cOAWBKFAAAsG_KhnbY467.png

應(yīng)用方案

基于以上挑戰(zhàn),阿里巴巴本地生活搜索推薦模型選擇了 NVIDIA 提供的 AI 加速方案:CUDA Graphs。

1、首先,我們根據(jù)業(yè)務(wù)場景的具體問題,使用 NVIDIA Nsight Systems 進行問題定位和分析。我們利用 NVIDIA Nsight Systems 集成到線上 Inference 環(huán)境中,獲取了真實環(huán)境下 Inference 過程的 GPU Profing 文件。通過 Profing 文件,我們可以清晰的看到 Inference 過程中,kernel launch bound 現(xiàn)象異常嚴重,符合我們的分析預(yù)想(如下圖)。

poYBAGJT9cuAPLIxAAClZF52Kso979.png

2、后續(xù),我們采用集成 CUDA Graphs 進行模型 Inference 過程優(yōu)化,理論上 CUDA Graphs 會大幅緩解 kernel launch bound 現(xiàn)象,因為 CUDA Graphs 會合并 N 個 kernel 獨立的 launch 操作,變?yōu)?1 個 graph launch 操作,這樣 kernel launch 不再是整個推理的瓶頸(如下圖)。

poYBAGJT9dGACNttAACPZanBkeY752.png

使用效果及影響

經(jīng)過集成 NVIDIA Nsight System 進行 GPU 使用情況查看和細節(jié)問題的診斷,我們充分了解和分析了業(yè)務(wù)中對 GPU 的使用情況的 kernel 執(zhí)行流程。對性能進一步優(yōu)化起到了指導(dǎo)作用。后續(xù)集成 CUDA Graphs 后,符合預(yù)期效果。推薦深度學(xué)習模型在 Inference 過程中的耗時 P99 下降 66%,單機吞吐提升 110%。讓用戶在毫無感知的時間范圍內(nèi)完成了模型算力達到 10 GFLOPS 的 Inference 過程,用戶體驗得到了極大的提升。

在使用 NVIDIA Nsight Systems 進行 GPU 瓶頸分析過程中,文檔查閱和使用教程很方便上手,集成過程也較為方便,指標介紹很豐富,快速完成 GPU 使用情況分析。后續(xù) CUDA Graphs 使用過程中,相關(guān)文檔也比較完善,包括圖的切割和分裝,算子 Capture 標準等。

本次優(yōu)化過程,團隊內(nèi)部積累了一套較為完善的 GPU 優(yōu)化手段和優(yōu)化方法理論,后續(xù)遇到其他模型性能問題時也有的放矢。多場景進行優(yōu)化后,對整個 GPU。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5600

    瀏覽量

    109818
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5199

    瀏覽量

    135534
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39927

    瀏覽量

    301564
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    比Google更快!阿里千問率先推出AI購物、點外賣,全面打通阿里生態(tài)

    1月15日,在阿里千問產(chǎn)品迭代發(fā)布會上,阿里巴巴集團副總裁、阿里千問C端事業(yè)群總裁吳嘉宣布,阿里千問App宣布全面接入淘寶、支付寶、淘寶閃購、飛豬、高德等
    的頭像 發(fā)表于 01-15 14:39 ?1.1w次閱讀
    比Google更快!<b class='flag-5'>阿里</b>千問率先推出AI購物、點外賣,全面打通<b class='flag-5'>阿里</b>生態(tài)

    海外電商平臺阿里巴巴國際站獲取商品詳情的API接口

    ? 在跨境電商領(lǐng)域,阿里巴巴國際站(Alibaba.com)是一個領(lǐng)先的平臺,為企業(yè)提供全球貿(mào)易服務(wù)。其API接口允許開發(fā)者通過編程方式獲取商品詳情,便于構(gòu)建自動化工具或集成到第三方系統(tǒng)。本文將
    的頭像 發(fā)表于 11-14 15:36 ?497次閱讀
    海外電商平臺<b class='flag-5'>阿里巴巴</b>國際站獲取商品詳情的API接口

    萬豪國際集團與阿里巴巴達成AI時代戰(zhàn)略合作 升級賓客旅行體驗

    杭州2025年11月11日 /美通社/ -- 萬豪國際集團日近日宣布與阿里巴巴集團達成AI時代戰(zhàn)略合作伙伴關(guān)系,雙方將在中國市場圍繞云基礎(chǔ)設(shè)施、AI應(yīng)用創(chuàng)新等領(lǐng)域深度合作,為賓客創(chuàng)造個性化、高品質(zhì)
    的頭像 發(fā)表于 11-11 22:47 ?239次閱讀
    萬豪國際集團與<b class='flag-5'>阿里巴巴</b>達成AI時代戰(zhàn)略合作 升級賓客旅行體驗

    阿里巴巴宣布與英偉達開展Physical AI合作

    行業(yè)芯事行業(yè)資訊
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2025年09月25日 11:32:26

    阿里巴巴開放平臺商品詳情接口實操:數(shù)據(jù)解析 + 核心實現(xiàn)方案(附避坑指南)

    本文提供阿里巴巴商品詳情接口的實用開發(fā)指南,涵蓋B2B場景下的核心功能實現(xiàn)。重點解析接口基礎(chǔ)參數(shù)、關(guān)鍵返回字段(價格梯度、SKU、供應(yīng)商信息)及典型應(yīng)用場景(采購決策、供應(yīng)商評估)。通過精簡代碼示例
    的頭像 發(fā)表于 09-17 13:54 ?561次閱讀

    博世與阿里巴巴集團深化戰(zhàn)略合作

    9月2日,全球領(lǐng)先的汽車技術(shù)與服務(wù)商博世與阿里巴巴集團宣布深化戰(zhàn)略合作伙伴關(guān)系,以先進的云計算與人工智能技術(shù)加速推動企業(yè)數(shù)字化轉(zhuǎn)型。雙方將重點聚焦云端驅(qū)動的企業(yè)運營、AI賦能的業(yè)務(wù)創(chuàng)新,以及電商領(lǐng)域的拓展。
    的頭像 發(fā)表于 09-02 16:09 ?703次閱讀

    中國電信與阿里簽署戰(zhàn)略合作協(xié)議 發(fā)力云和AI基礎(chǔ)設(shè)施

    在8月31日,中國電信與阿里簽署戰(zhàn)略合作協(xié)議;中國電信董事長柯瑞文、阿里巴巴集團首席執(zhí)行官吳泳銘、中國電信副總經(jīng)理唐珂、阿里巴巴集團副總裁李津見證簽約,中國電信總經(jīng)理助理胡志強與阿里巴巴
    的頭像 發(fā)表于 08-31 20:16 ?1260次閱讀

    阿里巴巴國際站關(guān)鍵字搜索 API 實戰(zhàn):從多條件篩選到商品列表高效獲客

    ??在跨境電商數(shù)據(jù)采集場景中,通過關(guān)鍵字精準搜索商品列表是基礎(chǔ)且核心的需求。本文將聚焦阿里巴巴國際站的關(guān)鍵字搜索接口,詳細介紹如何構(gòu)建多條件搜索請求、處理分頁數(shù)據(jù)、解析商品列表信息,并提供可直接復(fù)用的 Python 實現(xiàn)方案,幫助開發(fā)者快速搭建穩(wěn)定高效的商品搜索功能。
    的頭像 發(fā)表于 08-20 09:22 ?972次閱讀
    <b class='flag-5'>阿里巴巴</b>國際站關(guān)鍵字搜索 API 實戰(zhàn):從多條件篩選到商品列表高效獲客

    阿里巴巴達摩院劉志偉:QEMU RISC-V 的進展、特性與未來規(guī)劃

    2025 年 7 月 18 日,在第五屆(2025)RISC-V 中國峰會的軟件與生態(tài)系統(tǒng)分論壇上,阿里巴巴達摩院 RISC-V 及生態(tài)部技術(shù)專家劉志偉帶來了關(guān)于 QEMU RISC-V 的報告
    發(fā)表于 07-18 11:20 ?5720次閱讀
    <b class='flag-5'>阿里巴巴</b>達摩院劉志偉:QEMU RISC-V 的進展、特性與未來規(guī)劃

    探訪阿里巴巴展廳合作的無人超市:如何讓結(jié)賬速度提升300%

    在傳統(tǒng)超市里,排隊結(jié)賬往往是一場“耐力考驗”——高峰期平均等待時間超過15分鐘,收銀員掃碼失誤引發(fā)的糾紛屢見不鮮。但在阿里巴巴展廳合作的遠景達無人超市,這個數(shù)字被徹底改寫:消費者從選品到離店僅需15
    的頭像 發(fā)表于 07-13 00:00 ?880次閱讀
    探訪<b class='flag-5'>阿里巴巴</b>展廳合作的無人超市:如何讓結(jié)賬速度提升300%

    阿里2025財年業(yè)績:凈利潤大漲77%,AI+云業(yè)務(wù)攬下千億收入

    。 ? 圖:阿里巴巴2025財年年報 ? 阿里巴巴的業(yè)務(wù)包括淘天集團、阿里國際數(shù)字商業(yè)集團、云智能集團、菜鳥集團、本地生活集團、虎鯨文娛集團
    的頭像 發(fā)表于 06-28 00:10 ?8596次閱讀
    <b class='flag-5'>阿里</b>2025財年業(yè)績:凈利潤大漲77%,AI+云業(yè)務(wù)攬下千億收入

    求大神!米家mish和WiFi版配件求大神!米家mish和WiFi版配件

    阿里巴巴上沒有找到,要超薄的哦
    發(fā)表于 06-01 10:31

    壁仞科技完成阿里巴巴通義千問Qwen3全系列模型支持

    4月29日,阿里巴巴通義千問發(fā)布并開源8款新版Qwen3系列“混合推理模型”(簡稱“Qwen3”)。Qwen3發(fā)布后數(shù)小時內(nèi),壁仞科技完成全系列支持,并率先在壁仞科技開發(fā)者云平臺上線。 性能卓越
    的頭像 發(fā)表于 04-30 15:19 ?1601次閱讀

    普華基礎(chǔ)軟件蒞臨阿里巴巴達摩院調(diào)研交流

    近日, 普華基礎(chǔ)軟件股份有限公司(以下簡稱普華基礎(chǔ)軟件)董事、總經(jīng)理劉宏倩一行前往阿里巴巴達摩院(杭州)科技有限公司(以下簡稱達摩院)調(diào)研交流,阿里巴巴集團高層及達摩院核心團隊參與了本次調(diào)研交流活動
    的頭像 發(fā)表于 04-08 10:10 ?1156次閱讀

    阿里云爆發(fā)式的跨越

    蘋果最終選擇了阿里巴巴作為它們在中國的本地化合作伙伴! 2月13日,在迪拜舉辦的World Governments Summit 2025峰會上,阿里巴巴董事局主席蔡崇信自豪地宣布了這則消息。 他還
    的頭像 發(fā)表于 03-12 16:54 ?805次閱讀
    <b class='flag-5'>阿里</b>云爆發(fā)式的跨越