91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

用ElasticDL和社區(qū)Keras模型庫實現(xiàn)大量小眾預估場景

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2020-11-19 09:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在互聯(lián)網(wǎng)行業(yè)里有很多需要利用深度學習模型預估點擊率的場景,比如廣告系統(tǒng)、推薦系統(tǒng),和搜索引擎。有些重要的場景背后是很大的用戶流量,體驗了重要的商業(yè)價值,所以有數(shù)十人甚至數(shù)百人的團隊在不斷優(yōu)化預估效能。這些團隊為了優(yōu)化自己負責的場景甚至專門研發(fā)深度學習工具鏈。

同時,大量小眾的預估場景對應著不小的流量,但是無法配置專門的團隊,更不可能開發(fā)專門的工具。這類場景因為數(shù)量眾多,所以總體商業(yè)價值毫不弱于上述主流場景,甚至符合長尾分布的 20/80 比例 —— 其總體商業(yè)價值數(shù)倍于主流場景。

在我們研發(fā)和推廣 ElasticDL 的過程里,接觸到了很多負責此類小眾場景的用戶們。比如螞蟻集團的各種大促活動,以及餓了么和菜鳥等業(yè)務的營銷推薦活動。這些業(yè)務場景中,通常是一個算法工程師需要負責多個場景的建模。這就帶來一個重要需求 —— 提供一套通用工具以提高大量小眾預估場景下算法工程師的建模效率。另外,小眾場景里的訓練數(shù)據(jù)可不小 —— 本文梳理的場景都需要分布式訓練。

之前的文章《ElasticDL:同時提升集群利用率和研發(fā)效率的分布式深度學習框架》里我們介紹過 ElasticDL 通過 Kubernetes-native 的彈性調(diào)度能力,提升機群資源利用率到 >90%。同時,作為一個 Keras 模型的分布式訓練系統(tǒng),ElasticDL 只需要用戶提供模型定義,不需要用戶定義訓練循環(huán) (training loop),更不需要用戶開發(fā)分布式訓練循環(huán)。實際上,由于 TensorFlow 社區(qū)貢獻了很多 Keras 模型,比如 tf.keras.applications 里有很多 CV 領域的模型,DeepCTR 庫里有很多 CTR 預估相關的模型,用戶可以直接使用的。所以實際上 ElasticDL 在小眾場景中的使用可以完全不需要用戶 coding。這樣的易用性在推廣過程中得到了用戶的好評。

tf.keras.applications
https://tensorflow.google.cn/api_docs/python/tf/keras/applications?hl=zh-cn

DeepCTR
https://github.com/shenweichen/DeepCTR

基于 no-code 的特點,ElasticDL 團隊的主力工程師王勤龍為螞蟻的可視化建模平臺 PAI 增加了 ElasticDL 組件,使得大量用戶可以通過在 Web 頁面里拖拽和配置組件的方式實現(xiàn) AI 訓練。此文基于螞蟻、餓了么、和飛豬的同事們的反饋梳理,為大家解釋 TensorFlow 社區(qū)累積的 Keras 模型對中小 AI 場景的價值,以及如何經(jīng)由 ElasticDL 實現(xiàn)這些價值。

小眾預估場景對模型研發(fā)效率的期待

小眾預估場景具有如下特點:

應用周期短,可能是應用在某個短時間的大促營銷活動。所以算法工程師也需要在短時間內(nèi)能完成預估模型的開發(fā)。

業(yè)務場景復雜多樣,比如商品推薦的點擊預估、營銷活動的目標人群預估、優(yōu)惠券的核銷預估等,一個算法工程有可能會同時負責不同場景的預估建模,不同場景所使用的特征和模型可能區(qū)別很大,所說提高小眾場景的預估模型的開發(fā)效率十分重要。

樣本數(shù)據(jù)量大。雖然是小眾場景,但是在大數(shù)據(jù)時代,公司都會積累了很多歷史樣本數(shù)據(jù)。訓練的數(shù)據(jù)越多,有助于提升預估模型精度。所以在分布式集群上加速預估模型的訓練對生產(chǎn)應用十分重要。

小眾預估場景的這些特點不僅需要提高建模效率,也給集群管理系統(tǒng)帶來了挑戰(zhàn)。由于此類場景數(shù)量眾多,在集群上給每個場景單獨劃分資源是不切合實際的。同時小眾場景的訓練作業(yè)時多時少,給其調(diào)度資源時既要考慮是否滿足訓練任務的需求,也要考慮集群資源利用率。前者決定了用戶的模型訓練效率,后者決定了公司成本。

使用 Keras 提高預估模型編程效率

使用 ElasticDL 來做分布式訓練,用戶主要需要使用 Keras API 來定義一個 Keras Model,如下所示:

import tensorflow as tf def forward(): inputs = tf.keras.layers.Input(shape=(4, 1), name="input") x = tf.keras.layers.Flatten()(inputs) outputs = tf.keras.layers.Dense(3, name="output")(x) return tf.keras.Model(inputs=inputs, outputs=outputs, name="simple-model")

深度學習預估模型一般包含兩個部分:

樣本特征預處理定義。將原始特征數(shù)據(jù)轉(zhuǎn)換成適合深度學習使用的數(shù)據(jù),比如標準化、分箱等變換。

深度學習網(wǎng)絡結(jié)構(gòu)定義。定義網(wǎng)絡結(jié)構(gòu)來擬合數(shù)據(jù)分布,提供模型預估精度。

在特征預處理上,TensorFlow 在其最新版本中提供了很多 preprocessing layers 來方便用戶做特征預處理。使用這些 preprocessing layer,用戶可以很方便地將特征預處理計算邏輯與模型網(wǎng)絡結(jié)構(gòu)結(jié)合在一起構(gòu)造一個完整的 Keras 模型。

preprocessing layers
https://keras.io/api/layers/preprocessing_layers/

但是很多預估場景的特征數(shù)量很大,可能涉及用戶屬性、商品屬性、地理位置等特征。對每個特征都手動編程定義預處理邏輯,也是件繁瑣的事。同時特征預處理定義還需要一些樣本特征的統(tǒng)計信息來保證特征變換的準確性,比如標準化操作需要特征的均值和標準差,分箱需要特征值的分布信息來確定分箱邊界。在阿里巴巴集團,大多數(shù)預估場景的數(shù)據(jù)都是以結(jié)構(gòu)化表形式存儲在阿里云的 MaxCompute 中。針對此類數(shù)據(jù),我們結(jié)合 MaxCompute 的大數(shù)據(jù)計算能力開發(fā)了自動生成預處理 Layer 功能。用戶只需要選擇使用的特征列,就可以自動完成特征統(tǒng)計并根據(jù)統(tǒng)計結(jié)果生成預處理的 Layer,用戶只需關心模型的深度學習網(wǎng)絡結(jié)構(gòu)的定義。

在預估模型的網(wǎng)絡結(jié)構(gòu)定義上,DeepCTR模型庫提供了很多前沿的 CTR 預估模型。用戶可以很方便地調(diào)用這些模型來構(gòu)造自己的預估模型。針對常用的 CTR 深度學習預估模型,我們在螞蟻集團的 PAI 平臺上封裝了一個 ElasticDL-DeepCTR 組件,該組件能根據(jù)數(shù)據(jù)集自動生成特征預處理邏輯,并預置了 Wide&Deep、DeepFM、xDeepFM等算法,用戶只需配置參數(shù)即可進行分布式模型訓練。

彈性調(diào)度提升訓練效率

小眾預估場景所使用的樣本數(shù)量一般也很大,幾百萬到幾千萬條不等,單機訓練很慢滿足模型的訓練效率,往往需要在分布式集群上來加速模型訓練。因為小眾預估場景的數(shù)量多,單獨給每個場景劃分資源訓練模型無疑會大幅增加集群管理員的工作。但是資源劃分少會影響訓練速度,劃分過多則可能造成資源浪費。所以通常的做法是,這些小眾預估場景的模型訓練共享一個資源池。但是共享一個資源池很難同時兼顧用戶體驗和集群資源利用率。小眾預估場景的模型訓練作業(yè)往往時多時少。作業(yè)少的時候,資源池空閑造成資源浪費;作業(yè)多的時候,后面提交的任務需要排隊等待。

ElasticDL 的彈性訓練則能很好地解決了這個問題。通常一個 Kubernetes 集群上的資源是多個租戶共用的,這些租戶可能運行著各種不同的計算任務,比如在線服務任務、數(shù)據(jù)計算任務等。為了保證不同租戶的 Service-Level Objective (SLO),集群管理者會給各租戶分配資源配額。每個租戶有高優(yōu)先級使用自己的資源配額來執(zhí)行計算任務,如果配置內(nèi)的資源有空閑,其他租戶則能用低優(yōu)先級使用該租戶配額里空閑的資源。如果使用過程中,原有租戶計算任務增加,則其他租戶需要歸還使用的資源。由于集群中不同租戶的使用峰值和低谷一般是錯開的,所以集群中經(jīng)常存在空閑資源。模型訓練的租戶使用 ElasticDL 則能以低優(yōu)先級方式借調(diào)其他組租戶的空閑資源來訓練模型。就算訓練過程中 ElasticDL 作業(yè)的 worker 被原有租戶搶占了,訓練作業(yè)不會終止失敗。ElasticDL 會在集群里尋找其他租戶的空閑資源來啟動新的 worker,并將新 worker 加入訓練作業(yè)。

在螞蟻集團,幾十個租戶同時使用一個 Kubernetes 集群,我們在集群上只劃分了很少的資源來啟動 ElasticDL 作業(yè)的 master 和 PS 進程,而資源需求大且數(shù)量多的 worker 進程則全部使用低優(yōu)先級的資源來運行。這樣只要集群有空閑資源,訓練作業(yè)就能快速開始,從而提升了這些小眾預估模型的訓練效率,也同時提升了集群資源利用率。

應用案例

以下我們簡述幾個阿里經(jīng)濟體內(nèi)使用 ElasticDL 提升模型研發(fā)效能的小眾場景。

螞蟻財富的理財活動推薦

支付寶 818 金選理財節(jié)活動,新發(fā)基金策略(用于某債基帶貨)和黃金雨活動策略(用于促活躍)需要使用 CTR 預估來提升活動效果。該場景積累了幾百萬樣本數(shù)據(jù),且樣本中包含用戶屬性、理財產(chǎn)品屬性等很多特征。使用 ElasticDL 預估方案,非常方便地將 DeepFM 使用到了此次活動中。相比之前使用的規(guī)則策略,活動期間,頁面的點擊率有明顯提升。

餓了么補貼投放預估

餓了么 C 端補貼(天降紅包/高溫補貼券包項目)是通過對用戶發(fā)放紅包以撬動用戶下單的目的進行發(fā)放的,因此在不同門檻/面額組合下對用戶核銷/下單概率的預估是將平臺收益最大化(ROI 最大化)的必要條件。類似邏輯同樣適用在 B 端補貼上(百億補貼項目),只不過 B 端補貼需要疊加用戶對門店屬性的適應/偏好/LBS限制/物流限制等更復雜的情況。ElasticDL 提供的 CTR 預估方案非常簡單易用,訓練的 xDeepFM 模型上線后效果很好。為后續(xù)的核銷率擬合/ROI 優(yōu)化提供了堅實有力的基礎。

小結(jié)

針對 Keras 模型,ElasticDL 利用 TensorFlow 的 Eager execution 在 Kubernetes 上實現(xiàn)了彈性分布式訓練,讓用戶只需提供 Keras 模型定義就可以提交分布式訓練作業(yè)。同時由于 TensorFlow 社區(qū)擁有豐富的 Keras 模型庫,用戶可以做到 no-code 就能完成一個預估模型的應用。

由于 ElasticDL 在阿里經(jīng)濟體內(nèi)部的展示的應用價值,ElasticDL 的另一位主力工程師齊俊在配合阿里云團隊,爭取盡快讓阿里經(jīng)濟體之外的用戶可以在阿里云上使用 ElasticDL。這項對接工作結(jié)束之后,我們再為大家?guī)砀隆?/p>

責任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3773

    瀏覽量

    52176
  • 大數(shù)據(jù)

    關注

    64

    文章

    9080

    瀏覽量

    143892
  • 深度學習
    +關注

    關注

    73

    文章

    5600

    瀏覽量

    124483

原文標題:案例分享 | No-Code AI:用 ElasticDL 和社區(qū) Keras 模型庫實現(xiàn)大量小眾預估場景

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    免費本地部署的數(shù)據(jù) DevOps 工具,能覆蓋多少日常工作場景?以 NineData 社區(qū)版為例

    本文以 NineData 社區(qū)版為例,探討免費本地部署的數(shù)據(jù) DevOps 工具。其不是單一審核模板,而是集成多能力的本地工作臺,涵蓋日常操作、治理協(xié)同、運維保障等功能,將查、審、改、追等動作銜接。適合有本地化部署需求、數(shù)據(jù)源數(shù)量有限等
    的頭像 發(fā)表于 03-17 14:57 ?590次閱讀
    免費本地部署的數(shù)據(jù)<b class='flag-5'>庫</b> DevOps 工具,能覆蓋多少日常工作<b class='flag-5'>場景</b>?以 NineData <b class='flag-5'>社區(qū)</b>版為例

    免費數(shù)據(jù)管理工具深度橫評:NineData 社區(qū)版、Bytebase 社區(qū)版、Archery,2026 年開發(fā)者該選哪個?

    我們一篇客觀、嚴謹?shù)臋M評,帶你深度對比NineData 社區(qū)版 (v4.9.0)、Bytebase 社區(qū)版、Archery (開源)三款主流工具。所有結(jié)論均可在官方文檔中溯源,力求給你最真實的參考。
    的頭像 發(fā)表于 03-12 13:32 ?88次閱讀
    免費數(shù)據(jù)<b class='flag-5'>庫</b>管理工具深度橫評:NineData <b class='flag-5'>社區(qū)</b>版、Bytebase <b class='flag-5'>社區(qū)</b>版、Archery,2026 年開發(fā)者該選哪個?

    模型 ai coding 比較

    %通過),Kimi 7/9(77.8%通過) 3. 代碼重構(gòu)/項目理解能力(權(quán)重25%) 測試目標 :模型對復雜項目的理解和工程化能力 測評題目:手工設計的企業(yè)級真實場景(10題) 覆蓋題型: 讀懂代碼
    發(fā)表于 02-19 13:43

    主流變頻器廠商,大量哪家的芯片元器件?

    主流變頻器廠商,大量哪家的芯片元器件?
    的頭像 發(fā)表于 01-16 17:26 ?2673次閱讀
    主流變頻器廠商,<b class='flag-5'>大量</b><b class='flag-5'>用</b>哪家的芯片元器件?

    意法半導體STM32 AI模型庫助力邊緣AI落地應用

    在開發(fā)邊緣AI(Edge AI)時,可以說“理解問題本身”就已成功了一半。然而,隨著AI模型持續(xù)演進,即便是經(jīng)驗豐富的工程師,也會發(fā)現(xiàn)優(yōu)化變得越來越復雜。除此之外,如何在嚴格的內(nèi)存限制下同時確保實現(xiàn)優(yōu)秀性能,更是另一個難關。這些挑戰(zhàn),往往成為許多有志投身邊緣AI領域的開發(fā)
    的頭像 發(fā)表于 01-14 11:07 ?720次閱讀

    社區(qū)之星】劉壯壯——先傾聽,再分析,后溝通

    控制算法 系統(tǒng)設計與性能優(yōu)化 軟硬件實現(xiàn)與平臺開發(fā) 專業(yè)工具與開發(fā)流程 社區(qū)項目 方波控制系統(tǒng)的極致成本優(yōu)化:為搶占入門級工具市場,需在保持基本性能的前提下,對現(xiàn)有方波控制系統(tǒng)進行大幅降本; 社區(qū)項目
    發(fā)表于 12-11 17:31

    意法半導體STM32 MCU AI模型庫再擴容

    近日,意法半導體(ST)發(fā)布了新的人工智能模型,并增強了開發(fā)項目對STM32 AI模型庫的支持,以加快嵌入式人工智能應用的原型開發(fā)和產(chǎn)品開發(fā)。這標志著STM32 AI模型庫再次增加新的模型
    的頭像 發(fā)表于 11-24 10:00 ?1439次閱讀

    國創(chuàng)基礎資源:三大核心功能破解制造企業(yè)數(shù)據(jù)困局

    、CAD 模型庫三大核心功能為支撐,徹底打破制造業(yè)數(shù)據(jù) “散、小、弱” 的行業(yè)痛點,成為企業(yè)數(shù)字化轉(zhuǎn)型的 “剛需工具”。 一、零部件 3D 模型平臺:7400 萬模型撐起高效研發(fā) 在產(chǎn)品設計環(huán)節(jié),工程師最頭疼的莫過于 “找
    的頭像 發(fā)表于 10-23 17:06 ?639次閱讀

    Simulink模型測試典型問題分享——模型庫管理問題

    典型測試問題分享-模型庫管理問題 問題描述: ?相同信號名稱模型不同位置重復出現(xiàn),導致編譯異常報錯(模型運行正常)。 ?名稱存在邏輯沖突,例如右側(cè)扭矩計算,但是名稱為LeftTorqueControl。 ?信號名稱頻繁變更且缺乏
    的頭像 發(fā)表于 09-21 23:22 ?1261次閱讀
    Simulink<b class='flag-5'>模型</b>測試典型問題分享——<b class='flag-5'>模型庫</b>管理問題

    NanoEdge AI生成的模型庫,在keil里面編譯后運行,返回都是0,沒挑出單分類,怎么解決?

    我打算識別具有特定特征的曲線,我按照單分類進行訓練。2維數(shù)據(jù),輸入時間序列數(shù)據(jù),得分90+分,得到模型后。驗證得分90+,我就在keil里面使用驗證所用的數(shù)據(jù),挑選了一些無特征和有特征的數(shù)據(jù),判斷結(jié)果都返回0。 如何解決呢?
    發(fā)表于 08-12 07:52

    FA模型訪問Stage模型DataShareExtensionAbility說明

    DataAbilityHelper提供對外接口,服務端是由DataAbility提供數(shù)據(jù)的讀寫服務。 Stage模型中,客戶端是由DataShareHelper提供對外接口,服務端是由
    發(fā)表于 06-04 07:53

    MySQL數(shù)據(jù)是什么

    開發(fā)、企業(yè)應用和大數(shù)據(jù)場景。以下是其核心特性和應用場景的詳細說明: 核心特性 關系型數(shù)據(jù)模型 數(shù)據(jù)以 表(Table) 形式組織,表由行(記錄)和列(字段)構(gòu)成。 通過 主鍵、外鍵
    的頭像 發(fā)表于 05-23 09:18 ?1289次閱讀

    ABAQUS內(nèi)置了豐富的材料模型庫

    在現(xiàn)代工程設計與分析中,材料模型的準確選擇與應用是決定仿真結(jié)果可靠性的關鍵因素之一。ABAQUS作為有限元分析(FEA)領域的旗艦軟件,憑借其內(nèi)置的豐富材料模型庫,為工程師們提供了仿真分析靈活性
    的頭像 發(fā)表于 05-14 10:34 ?804次閱讀
    ABAQUS內(nèi)置了豐富的材料<b class='flag-5'>模型庫</b>

    東軟醫(yī)療大模型覆蓋眾多應用場景

    “AI+醫(yī)療”的創(chuàng)新實踐,依托大健康聯(lián)盟實現(xiàn)規(guī)?;a(chǎn)業(yè)轉(zhuǎn)化,東軟醫(yī)療大模型已成功覆蓋眾多核心應用場景,展現(xiàn)出領先的全場景落地能力。
    的頭像 發(fā)表于 04-14 17:04 ?1171次閱讀

    ADI LTspice 24仿真工具概述

    LTSpice是ADI旗下一款免費的SPICE類電力電子仿真軟件,集成了龐大且不斷增長的模型庫,此模型庫已超過30,000,其中包括5,000以上的ADI產(chǎn)品模型和示例電路。
    的頭像 發(fā)表于 04-10 17:17 ?2141次閱讀