91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

美團落實 AI 框架在 GPU 上性能推理的優(yōu)化實踐

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 作者:NVIDIA英偉達企業(yè)解 ? 2021-12-28 09:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

美團是一家集生活服務及商品零售的電商平臺,公司聚焦“零售+科技”戰(zhàn)略,以“吃”為核心,通過科技創(chuàng)新,服務于生活服務業(yè)需求側和供給側數(shù)字化升級。美團在中國業(yè)務涵蓋餐飲、配送、網(wǎng)約車、共享單車、酒店及旅游預訂、電影票務等 200 多個服務品類,覆蓋全國 2800 個市區(qū)縣,服務 6.7 億活躍用戶和 830萬活躍商家。

伴隨著用戶規(guī)模的提升和業(yè)務的精細化運營,業(yè)務側對推薦系統(tǒng)的準確度、吞吐能力和時延都提出了新的挑戰(zhàn),而 CTR 模型作為推薦系統(tǒng)的核心模型,其效果直接影響業(yè)務的收入。

美團的 CTR 模型過去一直在使用 CPU 推理的方式,但隨著用戶訪問量的提升和深度神經(jīng)網(wǎng)絡的引入,CTR 模型結構趨于復雜,吞吐和計算量也越來越大,CPU 開始不能滿足模型對于算力的需求,而僅僅通過 CPU 服務器的堆疊帶來的性能提升性價比相較偏低。

GPU 擁有數(shù)以千計的計算核心,可以在單機內(nèi)提供密集的并行計算能力,特別適合深度學習場景,在行業(yè)內(nèi)已經(jīng)在 CV 、NLP 等領域展示了強大的能力。通過 CUDA 及相關 API ,NVIDIA 建立了完整的 GPU 生態(tài)系統(tǒng)?;诖耍缊F基礎研發(fā)平臺將 CTR 模型部署到 GPU 上,并通過一系列針對 CPU 與 GPU 的異構系統(tǒng)并行計算設計、數(shù)據(jù)存儲方式和傳輸方式上的特定優(yōu)化,希望能通過 GPU 強大的計算力,協(xié)助美團在 CTR 預測的各業(yè)務場景中發(fā)揮出最大優(yōu)勢。

為了解決算力瓶頸及上述各種挑戰(zhàn),美團機器學習平臺采用 NVIDIA AI 計算平臺,在繼 CV 、NLP 及 CTR 訓練后,也使用了 NVIDIA T4 來提供 CTR 預測支持,大幅提升用戶體驗與服務穩(wěn)定性。除此之外,時延也是業(yè)務側非常重視的性能指標,許多復雜模型縱有更好的準確度,但卻因響應時間不達標而無法落地應用,例如,在某搜索框自動補全的場景,由于天然的交互屬性,時延要求非??量?,一般來說無法使用復雜的模型。而在 GPU 能力的加持下,其復雜模型的平均響應時間從 15 毫秒降低至 6~7 毫秒,足足縮短了一倍多,達到了上線要求。

通過 NVIDIA T4 深度優(yōu)化方案,成功為美團 CTR 模型創(chuàng)造更多應用機會,不僅極大地提升了系統(tǒng)吞吐量,更進一步地提升了整個模型訓練的速度與降低訓練成本,落實 AI 框架在 GPU 上性能推理的優(yōu)化實踐。

美團研發(fā)工程師,機器學習平臺預測引擎負責人王新表示,“在美團和英偉達的共同努力下, CTR 預測服務成功的遷移到 GPU 平臺上,在為業(yè)務提供更好的支撐的同時也獲得了更好的性價比;下一步,機器學習平臺計劃采用 NVIDIA Triton 推理服務框架和 NVIDIA Ampere A30 ,進一步提升美團推理服務的效率?!?/p>

原文標題:美團機器學習平臺使用 NVIDIA GPU 助力公司 CTR 預測服務升級

文章出處:【微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

審核編輯:彭菁
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11281

    瀏覽量

    225109
  • NVIDIA
    +關注

    關注

    14

    文章

    5598

    瀏覽量

    109803
  • AI
    AI
    +關注

    關注

    91

    文章

    39866

    瀏覽量

    301513
  • 美團
    +關注

    關注

    0

    文章

    125

    瀏覽量

    11050

原文標題:美團機器學習平臺使用 NVIDIA GPU 助力公司 CTR 預測服務升級

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    AI推理芯片需求爆發(fā),OpenAI欲尋求新合作伙伴

    領域占據(jù)主導,其GPU憑借強大的海量數(shù)據(jù)處理能力,成為全球AI爆炸式增長的重要基石。但隨著AI不斷演進,重點正從大規(guī)模訓練轉向對已訓練模型的推理和推斷,
    的頭像 發(fā)表于 02-03 17:15 ?2028次閱讀

    使用NORDIC AI的好處

    原始傳感器數(shù)據(jù),可顯著降低功耗、延長電池壽命。[Edge AI 概述; Nordic Edge AI 技術頁] 降低云依賴與時延 直接在設備推理,很多決策可以“本地實時”完成,
    發(fā)表于 01-31 23:16

    YOLO5目標檢測方案-基于米爾RK3576開發(fā)板

    與調(diào)優(yōu)提供了一套完整的思路與實踐方案。 PART 01 系統(tǒng)架構與性能目標 1.1 硬件平臺 主控芯片:Rockchip RK3576(四核A72+四核A53,6TOPS NPU,RGA,GPU
    發(fā)表于 01-22 19:21

    瑞芯微SOC智能視覺AI處理器

    RK3568B2: 一款性能均衡、接口豐富的中高端AIoT應用處理器,是RK3568的優(yōu)化版本,主打穩(wěn)定與可靠性。CPU/GPU: 延續(xù)RK3568的4核A55 + G52 GPU架構
    發(fā)表于 12-19 13:44

    AI推理需求爆發(fā)!高通首秀重磅產(chǎn)品,國產(chǎn)GPU的自主牌怎么打?

    10月29日,在安博會的2025智能算力應用及產(chǎn)業(yè)發(fā)展論壇,超聚變數(shù)字技術有限公司深圳解決方案總監(jiān)丁元釗表示,原來我們預計2026年是AI推理爆發(fā)元年,2025年DeepSeek-R1,V3模型
    的頭像 發(fā)表于 10-30 00:46 ?1.4w次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>需求爆發(fā)!高通首秀重磅產(chǎn)品,國產(chǎn)<b class='flag-5'>GPU</b>的自主牌怎么打?

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實現(xiàn)這一目標,其構建了多維度的核心實現(xiàn)路徑:一
    的頭像 發(fā)表于 10-21 11:04 ?1195次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    主要步驟: ①溯因②假說③實驗 1、科學推理的類型 ①演繹②歸納 2、自動化科學發(fā)現(xiàn)框架 AI-笛卡兒-----自動化科學發(fā)現(xiàn)框架,利用數(shù)據(jù)和知識來生成和評估候選的科學假說。 4項規(guī)
    發(fā)表于 09-17 11:45

    Arm神經(jīng)技術是業(yè)界首創(chuàng)在 Arm GPU 增添專用神經(jīng)加速器的技術,移動設備實現(xiàn)PC級別的AI圖形性能

    Arm 神經(jīng)技術是業(yè)界首創(chuàng)在 Arm GPU 增添專用神經(jīng)加速器的技術,首次在移動設備實現(xiàn) PC 級別的 AI 圖形性能,為未來的端側
    的頭像 發(fā)表于 08-14 17:59 ?2777次閱讀

    基于米爾瑞芯微RK3576開發(fā)板部署運行TinyMaix:超輕量級推理框架

    本文將介紹基于米爾電子MYD-LR3576開發(fā)平臺部署超輕量級推理框架方案:TinyMaix 摘自優(yōu)秀創(chuàng)作者-短笛君 TinyMaix 是面向單片機的超輕量級的神經(jīng)網(wǎng)絡推理庫,即 TinyML
    發(fā)表于 07-25 16:35

    信而泰×DeepSeek:AI推理引擎驅動網(wǎng)絡智能診斷邁向 “自愈”時代

    、DDoS攻擊跡象、性能劣化趨勢。l 智能推送優(yōu)化建議(如流量調(diào)度策略調(diào)整、安全規(guī)則預加載),將風險扼殺在萌芽狀態(tài)。 方案價值:AI推理引擎帶來的運維變革 信而泰融合DeepSeek
    發(fā)表于 07-16 15:29

    Say Hi to ERNIE!Imagination GPU率先完成文心大模型的端側部署

    本地AI推理,同時大幅降低推理成本,這一成果也標志著ImaginationGPU在端側AI推理場景中的技術領先性。Imagination高度
    的頭像 發(fā)表于 07-01 08:17 ?987次閱讀
    Say Hi to ERNIE!Imagination <b class='flag-5'>GPU</b>率先完成文心大模型的端側部署

    提升AI訓練性能GPU資源優(yōu)化的12個實戰(zhàn)技巧

    在人工智能與機器學習技術迅速發(fā)展的背景下,GPU計算資源的高效利用已成為關鍵技術指標。優(yōu)化GPU資源分配不僅能顯著提升模型訓練速度,還能實現(xiàn)計算成本的有效控制。根據(jù)AI基礎設施聯(lián)盟2
    的頭像 發(fā)表于 05-06 11:17 ?1556次閱讀
    提升<b class='flag-5'>AI</b>訓練<b class='flag-5'>性能</b>:<b class='flag-5'>GPU</b>資源<b class='flag-5'>優(yōu)化</b>的12個實戰(zhàn)技巧

    RK3588核心板在邊緣AI計算中的顛覆性優(yōu)勢與場景落地

    推理任務,需額外部署GPU加速卡,導致成本與功耗飆升。 擴展性受限:老舊接口(如USB 2.0、百兆網(wǎng)口)無法支持5G模組、高速存儲等現(xiàn)代外設,升級困難。 開發(fā)周期長:BSP適配不完善,跨平臺AI
    發(fā)表于 04-15 10:48

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 推理優(yōu)化
    的頭像 發(fā)表于 03-20 15:03 ?1278次閱讀

    摩爾線程GPU原生FP8計算助力AI訓練

    近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓練策略和高性能算子庫,這兩大框架在國產(chǎn)全功能
    的頭像 發(fā)表于 03-17 17:05 ?1531次閱讀
    摩爾線程<b class='flag-5'>GPU</b>原生FP8計算助力<b class='flag-5'>AI</b>訓練