在“百度Create 2018”百度開發(fā)者大會上,百度發(fā)布了升級版的開源深度學習框架PaddlePaddle,可謂深度學習模型設計的利器,讓開發(fā)者只需關注模型的高層結(jié)構(gòu),而無需擔心底層的搭建問題。同時,百度在2017年11月發(fā)布了以此框架為基礎的,定制化訓練和服務平臺EasyDL,即使零機器學習算法基礎,也能全程通過可視化操作獲取定制化AI服務。
百度作為全球人工智能核心技術和研究的領軍企業(yè),通過搭建AI開放平臺(ai.baidu.com)和PaddlePaddle深度學習框架將百度大腦中領先的核心能力賦能到更為廣泛的行業(yè)生態(tài)、科研院所和開發(fā)者社區(qū)中,提供了全球領先的AI服務基礎設施。在以平臺化開放百度大腦中的核心基礎能力的同時,百度也非常關注各個行業(yè)中對AI模型和服務的定制化需求。
百度AI開放平臺團隊基于PaddlePaddle打造了EasyDL這一全球領先的定制化模型訓練和推理平臺。目前EasyDL已經(jīng)在圖像分類(Image Classification), 物體檢測(Object Detection)等方向支持零算法基礎的定制化模型訓練與服務。除了云端服務(Cloud Computing),EasyDL還支持定制化模型在設備端的本地計算(Edge Computing),是一個端云一體的平臺。用戶通過將平臺的定制能力與行業(yè)場景結(jié)合,實現(xiàn)了大量人工智能創(chuàng)新。自2017年上線以來,EasyDL已累計創(chuàng)建模型破萬,已覆蓋20多個行業(yè)。
在賦能行業(yè)的平臺的背后,EasyDL依托于NVIDIA的Tesla GPU深度學習平臺,搭建了用于深度學習模型訓練(Training)和服務(Inference)階段的GPU集群。該集群能支持高效的大規(guī)模深度神經(jīng)網(wǎng)絡模型并發(fā)訓練,并大幅縮短模型訓練周期,顯著減少定制服務調(diào)用階段的響應時間,從而為EasyDL提供了堅實的技術保障。
不同行業(yè)對人工智能的定制化需求是通用AI能力難以滿足的
行業(yè)AI定制化需求
對訓練和推理算力提出高要求
滿足不同行業(yè)對AI的定制化需求,其實存在諸多業(yè)務和技術上的挑戰(zhàn)。首先,提出定制化AI需求的行業(yè)用戶雖然是各自行業(yè)的領域?qū)<业珜τ谌斯ぶ悄芗吧疃葘W習的技術知之甚少,要求他們直接通過深度學習框架訓練得到定制化模型是不切實際的。其次,這些用戶也往往不具備用于模型訓練和服務部署的大規(guī)模GPU集群,更沒有資源投入到長期的服務升級和運維工作中。更為重要的是,定制化模型的訓練和基于推理的服務都必須足夠的快, 用戶才能及時得到反饋,調(diào)整訓練數(shù)據(jù)和方案,優(yōu)化訓練效果;才能在服務調(diào)用時滿足嚴苛的時效性要求;平臺才能實現(xiàn)大規(guī)模并發(fā)訓練和并發(fā)服務請求。
EasyDL技術框圖,學習和服務環(huán)節(jié)依托大規(guī)模NVIDIA GPU集群
如上圖所示,百度基于其開源深度學習框架PaddlePaddle實現(xiàn)EasyDL的核心訓練和服務引擎,在計算視覺的圖像分類和物體檢測等定制化方向上,使用了基于Inception、SSD、ResNet、FasterRCNN等多個深度神經(jīng)網(wǎng)絡原型算法優(yōu)化的模型。模型的訓練和服務階段采用了大規(guī)模的NVIDIA Tesla P4 為主的GPU集群,通過數(shù)據(jù)比對可以看到,基于GPU集群性能遠超CPU集群。
大規(guī)模NVIDIA Tesla P4 GPU集群
加速AI訓練與推理
目前,百度EasyDL團隊基于單機4卡Tesla P4 GPU的服務器搭建了數(shù)十臺深度神經(jīng)網(wǎng)絡模型訓練和推理的GPU加速集群,能穩(wěn)定承載每天數(shù)百個并發(fā)訓練任務,以及數(shù)千個并發(fā)定制模型推理請求。
Tesla P4加速器的單精度浮點數(shù)(FP32)計算能力達到了5.5TFLOPS,集群單節(jié)點GPU的單精度浮點計算能力可達到22TFLOPS。Tesla P4可將任何超大規(guī)?;A架構(gòu)的延遲降低 15 倍,并可以提供比 CPU 高 60 倍的能效,可助力實現(xiàn)許多過去由于延遲限制而無法實現(xiàn)的應用。
在典型業(yè)務場景下,對集群單節(jié)點的承載和時延性能進行壓力測試,可以看到基于GPU集群的性能顯著優(yōu)于CPU集群。其中,圖像分類上單節(jié)點每秒并發(fā)承載能力(QueryPerSecond) GPU節(jié)點是CPU節(jié)點的6倍多,響應時延則僅為CPU節(jié)點的58%左右;物體檢測中更為明顯,GPU單節(jié)點并發(fā)承載能力達到CPU節(jié)點的31倍,響應時延則僅為CPU節(jié)點的25%。由于基于GPU集群的訓練和服務都足夠快,因此,在用戶體驗方面,EasyDL的用戶最快5分鐘即可完成定制模型的訓練并獲得服務,對比同類需求通常需要數(shù)天的訓練周期大幅提升了效率。這解決了定制化模型訓練和服務中的核心挑戰(zhàn)。同時,為EasyDL場景和行業(yè)覆蓋的迅速規(guī)?;蛳铝嗽鷮嵉幕A。也確保了EasyDL更輕快、高精度等特性。

真實業(yè)務場景數(shù)據(jù)并發(fā)和時延壓測比對
5分鐘完成定制模型訓練與推理
零基礎也能快速上手
為降低行業(yè)用戶的使用門檻,實現(xiàn)零機器學習基礎,零代碼獲得定制化深度學習模型及接口服務,百度EasyDL提供了簡單且完善的平臺業(yè)務系統(tǒng),用戶只需上傳數(shù)據(jù)、發(fā)起訓練、驗證效果、發(fā)布模型四個步驟,就能快速獲得定制化接口服務。

極簡業(yè)務流程使得EasyDL對普通用戶可即用
為了使得模型訓練、部署和推理對用戶透明,百度EasyDL團隊打造了結(jié)合大數(shù)據(jù)Spark系統(tǒng)和AI分布式訓練Kubernetes工具的AI Workflow引擎,實現(xiàn)了從數(shù)據(jù)處理到推理上線的全自動流程。如此一來,就解決了業(yè)務人員不懂代碼,程序員不懂業(yè)務的痛點難點,使得AI技術能夠迅速被業(yè)務人員學習和掌握,從而專注于精進業(yè)務能力。

全自動AI Workflow引擎
圖像識別準確率大幅提高
人力成本顯著降低
在NVIDIA Tesla P4加速器的強大算力助力下,百度EasyDL已經(jīng)在多個行業(yè)落地應用。比如在制造業(yè)中,百度EasyDL平臺也在幫越來越多的企業(yè)提升效率并節(jié)約人力。比如蝶魚科技將百度EasyDL接口與工業(yè)攝像頭、工業(yè)光源、激光測距儀、PLC控制氣缸等設備組成綜合檢測系統(tǒng),在制造和組裝鍵盤流水線上,自動識別鍵盤組裝后的合格性,包括缺件、錯裝、正常三類,通過3000+張圖片的驗證(每類1000張),識別準確率99%以上,遠超蝶魚科技的預期。同時,每條生產(chǎn)流水線每年可以節(jié)省12萬人工檢測員人力成本。
鍵盤組裝質(zhì)量檢測
在GPU 的助力下,包括百度EasyDL平臺在內(nèi)的諸多行業(yè)客戶,獲得了深度學習和推理應用的能力和智慧,進而定制出豐富、個性化、不斷動態(tài)升級的AI行業(yè)解決方案,同時也對傳統(tǒng)的行業(yè)應用提供了創(chuàng)新思路,隨著基于行業(yè)的AI生態(tài)不斷通過百度EasyDL這樣的平臺聚合與裂變,以AI為核心特征的新應用大爆發(fā)時代已經(jīng)來臨。
-
AI
+關注
關注
91文章
39961瀏覽量
301600 -
百度
+關注
關注
9文章
2378瀏覽量
94964 -
人工智能
+關注
關注
1818文章
50123瀏覽量
265617 -
深度學習
+關注
關注
73文章
5599瀏覽量
124434
原文標題:GPU集群助力百度為行業(yè)提供高效定制化AI訓練和推理平臺
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
你想知道的都在這里 “百度Create 2018”圓滿落幕
評論