91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

TensorFlow 2:專為性能和易用性而設(shè)計(jì)

Tensorflowers ? 來源:TensorFlow ? 2020-09-08 16:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

衡量機(jī)器學(xué)習(xí)性能的業(yè)界標(biāo)準(zhǔn) MLPerf(https://mlperf.org) 發(fā)布了 MLPerf Training v0.7 輪的最新基準(zhǔn)測試結(jié)果。我們開心地與大家分享,Google 的提交結(jié)果展現(xiàn)出一流的性能(達(dá)到目標(biāo)質(zhì)量用時(shí)最短),能夠擴(kuò)展至 4,000 多個(gè)加速器,并且在 Google Cloud 上為 TensorFlow 2 開發(fā)者提供了靈活的開發(fā)體驗(yàn)。

在本文中,我們將探討 TensorFlow 2 MLPerf 提交結(jié)果,以及這些結(jié)果展示了企業(yè)如何在 Google Cloud 中尖端的 ML 加速器上運(yùn)行 MLPerf 所代表的有價(jià)值的工作任務(wù),如廣泛部署的幾代 GPU 和 Cloud TPU(

TensorFlow 2:專為性能和易用性而設(shè)計(jì)

在今年早些時(shí)候舉行的 TensorFlow 開發(fā)者峰會(huì)上,我們著重介紹了 TensorFlow 2 將注重易用性和實(shí)際性能。為爭取贏得基準(zhǔn)測試,工程師們往往依賴于低階 API 調(diào)用和硬件專用的代碼,而這些在日常企業(yè)環(huán)境中可能很少見或不實(shí)用。借助 TensorFlow 2,我們的目標(biāo)是通過更直接的代碼提供開箱即用的高性能,避免低級優(yōu)化在代碼重用性、代碼運(yùn)行狀況和工程效率方面帶來的重大問題。

MLPerf Training v0.7 中 Google 使用帶 8 個(gè) NVIDIA V100 GPU 的 Google Cloud VM 的收斂時(shí)間(分鐘)。提交結(jié)果在“可用”類別中

TensorFlow 的 Keras API(請參閱相關(guān)的一系列指南)支持多種硬件架構(gòu),提供了易用性和可移植性。例如,模型開發(fā)者可以使用 Keras 混合精度 API 和 Distribution Strategy API 來使同一代碼庫盡可能在多個(gè)硬件平臺上流暢運(yùn)行。Google 的“云端可用”類別中的 MLPerf 提交結(jié)果是由這些 API 實(shí)現(xiàn)的。這些提交結(jié)果證明了使用高階 Keras API 編寫的幾乎相同的 TensorFlow 代碼可以在業(yè)界兩個(gè)領(lǐng)先的廣泛可用的 ML 加速器平臺上提供高性能使用體驗(yàn):NVIDIA 的 V100 GPU 和 Google 的 Cloud TPU v3 Pod。

指南
https://tensorflow.google.cn/guide/keras/sequential_model

Keras混合精度 API
https://tensorflow.google.cn/guide/keras/mixed_precision

Distribution Strategy API
https://tensorflow.google.cn/guide/distributed_training

注:圖表中顯示的所有結(jié)果均于 2020 年 7 月 29 日從 www.mlperf.org 中獲取。MLPerf 名稱和徽標(biāo)為商標(biāo)。有關(guān)詳細(xì)信息,請?jiān)L問 www.mlperf.org。顯示的結(jié)果:0.7-1 和 0.7-2。

MLPerf Training v0.7 中使用含 16 個(gè) TPU 芯片的 Google Cloud TPU v3 Pod 切片的收斂時(shí)間(分鐘)。提交結(jié)果在“可用”類別中

深入了解:借助 XLA 提升性能

Google 提交的在 GPU 和 Cloud TPU Pod 上的測試結(jié)果使用了 XLA 編譯器來優(yōu)化 TensorFlow 性能。XLA 是 TPU 編譯器技術(shù)棧的核心部分,可以選擇性地為 GPU 啟用。XLA 是一個(gè)基于圖模型的即時(shí)編譯器,用于執(zhí)行各種不同類型的全程序優(yōu)化,包括 ML 運(yùn)算的廣泛 融合 。

XLA 編譯器
https://tensorflow.google.cn/xla

算子融合降低了 ML 模型對存儲(chǔ)容量和帶寬的要求。此外,融合減少了運(yùn)算的啟動(dòng)開銷,尤其是在 GPU 上??傮w而言,XLA 優(yōu)化具有通用性和可移植性,與 cuDNN 和 cuBLAS 庫的互操作性十分出色,并且通??梢宰鳛槭謩?dòng)編寫低級內(nèi)核的有力替代方案。

Google 的“云端可用”類別中的 TensorFlow 2 提交結(jié)果使用了 TensorFlow 2.0 中引入的 @tf.function API。@tf.function API 提供了一種簡單的方法來有選擇地啟用 XLA,從而可以精確控制將要編譯的函數(shù)。

啟用 XLA
https://www.tensorflow.org/xla/tutorials/compile

XLA 帶來的性能提升令人贊嘆:在連接 8 個(gè) Volta V100 GPU(每個(gè)具有 16 GB GPU 內(nèi)存)的 Google Cloud VM 上,XLA 將 BERT訓(xùn)練吞吐量從每秒 23.1 個(gè)序列提高到每秒 168 個(gè)序列,提升了約 7 倍。XLA 還使每個(gè) GPU 的可運(yùn)行批次大小增加了 5 倍。XLA 減少了內(nèi)存使用量,因此使得高級訓(xùn)練技術(shù)(如梯度積累)的使用成為可能。

在 Google Cloud 上使用 8 個(gè) V100 GPU 的 BERT 模型中啟用 XLA 的影響(分鐘)(Google 在 MLPerf Training 0.7 中提交的測試結(jié)果)與停用優(yōu)化條件下同一系統(tǒng)中未經(jīng)驗(yàn)證的 MLPerf 結(jié)果

Google Cloud 上最先進(jìn)的加速器

Google Cloud 是唯一支持訪問最新 GPU 和 Cloud TPU 的公共云平臺,使 AI 研究人員和數(shù)據(jù)科學(xué)家可以自由地為每個(gè)任務(wù)選擇合適的硬件。

GPU
https://cloud.google.com/blog/products/compute/announcing-google-cloud-a2-vm-family-based-on-nvidia-a100-gpu

Cloud TPU
https://cloud.google.com/tpu/

BERT 等前沿模型已在 Google 內(nèi)廣泛使用,并在整個(gè)行業(yè)范圍內(nèi)用于各種自然語言處理任務(wù),現(xiàn)在可以使用訓(xùn)練 Google 內(nèi)部工作任務(wù)所用的基礎(chǔ)架構(gòu)在 Google Cloud 上進(jìn)行訓(xùn)練。借助 Google Cloud,您可以在一個(gè)小時(shí)內(nèi)在具有 16 個(gè) TPU 芯片的 Cloud TPU v3 Pod 切片上將 BERT 訓(xùn)練 300 萬個(gè)序列,總成本不到 32 美元。

BERT
https://github.com/tensorflow/models/blob/master/official/benchmark/bert_benchmark.py

結(jié)論

Google 的 MLPerf 0.7 訓(xùn)練提交結(jié)果展示了 TensorFlow 2 在最新的 ML 加速器硬件上的性能、易用性和可移植性。立即開始,體驗(yàn) TensorFlow 2 在 Google Cloud GPU、Google Cloud TPU 和具有 Google Cloud Deep Learning VM 的 TensorFlow Enterprise 上的易用性和功能。

致謝

GPU 的 MLPerf 提交結(jié)果離不開與 NVIDIA 的密切協(xié)作。NVIDIA 的所有工程師都為提交測試結(jié)果提供了幫助,在此一并表示感謝。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8553

    瀏覽量

    136935
  • tensorflow
    +關(guān)注

    關(guān)注

    13

    文章

    334

    瀏覽量

    62178

原文標(biāo)題:TensorFlow 2 MLPerf 提交結(jié)果在 Google Cloud 上展現(xiàn)出同類最佳性能

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    LMZ12008:高效易用的電源模塊解決方案

    LMZ12008:高效易用的電源模塊解決方案 在電子設(shè)計(jì)領(lǐng)域,電源模塊的性能和易用性至關(guān)重要。今天,我們來深入了解一下德州儀器(TI)的LMZ12008 SIMPLE SWITCHER? 電源模塊
    的頭像 發(fā)表于 03-04 15:35 ?50次閱讀

    易上手 好維護(hù)——廣東宏展科技快速溫變箱易用性與輕量化操作設(shè)計(jì)解析

    核心,打造全維度易用性與輕量化操作設(shè)計(jì),從操作界面、運(yùn)維結(jié)構(gòu)到培訓(xùn)支持,全方位實(shí)現(xiàn)“易上手、好維護(hù)”,讓非專業(yè)人員輕松駕馭,大幅降低企業(yè)人力與運(yùn)維成本。人性化操作設(shè)
    的頭像 發(fā)表于 01-19 16:59 ?374次閱讀
    易上手 好維護(hù)——廣東宏展科技快速溫變箱<b class='flag-5'>易用性</b>與輕量化操作設(shè)計(jì)解析

    ADL5602射頻增益模塊:高性能易用性的完美結(jié)合

    ADL5602射頻增益模塊:高性能易用性的完美結(jié)合 在射頻和中頻應(yīng)用領(lǐng)域,找到一款性能卓越且易于集成的增益模塊并非易事。今天,我們就來深入探討Analog Devices公司推出的ADL5602
    的頭像 發(fā)表于 01-05 15:55 ?224次閱讀

    20位 1.8MSPS ADC CM2431,競品AD4020,高性能易用性的雙重保障

    在工業(yè)傳感、精密儀器及醫(yī)療設(shè)備等高端應(yīng)用領(lǐng)域,對數(shù)據(jù)采集系統(tǒng)的性能要求極為嚴(yán)苛。高精度SARADC是其中的核心角色,除了極致的性能與穩(wěn)定可靠外,從客戶設(shè)計(jì)體驗(yàn)出發(fā),在易用性上深思熟慮
    的頭像 發(fā)表于 12-15 17:43 ?680次閱讀
    20位 1.8MSPS ADC CM2431,競品AD4020,高<b class='flag-5'>性能</b>與<b class='flag-5'>易用性</b>的雙重保障

    軟件更新 | TSMaster 9-10月版本發(fā)布:TAC腳本進(jìn)階,小程序易用性大幅提升

    為持續(xù)賦能用戶的研發(fā)與測試工作,TSMaster正式發(fā)布2025年9-10月功能更新。本次版本聚焦于核心自動(dòng)化能力的強(qiáng)化與用戶體驗(yàn)的優(yōu)化,重點(diǎn)帶來了TAC腳本全面進(jìn)階、小程序易用性升級、API更新
    的頭像 發(fā)表于 10-31 20:04 ?1368次閱讀
    軟件更新 | TSMaster 9-10月版本發(fā)布:TAC腳本進(jìn)階,小程序<b class='flag-5'>易用性</b>大幅提升

    Keysight 33600A:現(xiàn)代工程師的全能信號源

    計(jì)的現(xiàn)代測試平臺。它成功地在性能、功能和易用性之間取得了出色平衡,成為了實(shí)驗(yàn)室工作臺上不可或缺的“信號引擎”。
    的頭像 發(fā)表于 10-18 11:42 ?1224次閱讀

    性能網(wǎng)絡(luò)同步器LMK5C33414A技術(shù)解析與應(yīng)用

    ,環(huán)路帶寬可編程,無需外部環(huán)路濾波器。此功能最大限度地提高了設(shè)備的靈活性和易用性。每個(gè)DPLL相位將配對的APLL鎖定到參考輸入。
    的頭像 發(fā)表于 09-04 15:28 ?829次閱讀
    高<b class='flag-5'>性能</b>網(wǎng)絡(luò)同步器LMK5C33414A技術(shù)解析與應(yīng)用

    高新興瑞聯(lián)推出新款LTE Cat.1高性能OBD產(chǎn)品GD303

    2025年8月,高新興瑞聯(lián)新款LTE Cat.1高性能OBD產(chǎn)品——GD303正式上市!憑借卓越的性能、豐富的功能和廣泛的應(yīng)用場景適用和易用性,GD303將豐富高新興瑞聯(lián)的OBD T
    的頭像 發(fā)表于 08-15 11:02 ?2108次閱讀

    TPS62810-Q1 采用 2mm x 3mm 可濕側(cè)面 QFN 封裝的汽車類 2.75V 至 6V、4A 降壓轉(zhuǎn)換器數(shù)據(jù)手冊

    TPS6281x-Q1 是引腳對引腳 1A、2A、3A 和 4A 同步降壓直流/直流轉(zhuǎn)換器系列。所有設(shè)備均提供高效率和易用性。TPS6281x-Q1 系列基于峰值電流模式控制拓?fù)?/div>
    的頭像 發(fā)表于 06-13 11:24 ?1483次閱讀
    TPS62810-Q1 采用 <b class='flag-5'>2</b>mm x 3mm 可濕<b class='flag-5'>性</b>側(cè)面 QFN 封裝的汽車類 2.75V 至 6V、4A 降壓轉(zhuǎn)換器數(shù)據(jù)手冊

    TPS62813-Q1 汽車類 2.75V 至 6V、3A 降壓轉(zhuǎn)換器數(shù)據(jù)手冊

    TPS6281x-Q1 是引腳對引腳 1A、2A、3A 和 4A 同步降壓直流/直流轉(zhuǎn)換器系列。所有設(shè)備均提供高效率和易用性。TPS6281x-Q1 系列基于峰值電流模式控制拓?fù)?/div>
    的頭像 發(fā)表于 06-13 11:18 ?780次閱讀
    TPS62813-Q1 汽車類 2.75V 至 6V、3A 降壓轉(zhuǎn)換器數(shù)據(jù)手冊

    TPS62812-Q1 汽車類 2.75V 至 6V、2A 降壓轉(zhuǎn)換器,采用2mm x 3mm可濕側(cè)面 QFN 封裝數(shù)據(jù)手冊

    TPS6281x-Q1 是引腳對引腳 1A、2A、3A 和 4A 同步降壓直流/直流轉(zhuǎn)換器系列。所有設(shè)備均提供高效率和易用性。TPS6281x-Q1 系列基于峰值電流模式控制拓?fù)?/div>
    的頭像 發(fā)表于 06-13 10:55 ?805次閱讀
    TPS62812-Q1 汽車類 2.75V 至 6V、<b class='flag-5'>2</b>A 降壓轉(zhuǎn)換器,采用<b class='flag-5'>2</b>mm x 3mm可濕<b class='flag-5'>性</b>側(cè)面 QFN 封裝數(shù)據(jù)手冊

    TPS62811-Q1 汽車類 2.75V 至 6V、1A 降壓轉(zhuǎn)換器,采用2mm x 3mm可濕側(cè)面 QFN 封裝數(shù)據(jù)手冊

    TPS6281x-Q1 是引腳對引腳 1A、2A、3A 和 4A 同步降壓直流/直流轉(zhuǎn)換器系列。所有設(shè)備均提供高效率和易用性。TPS6281x-Q1 系列基于峰值電流模式控制拓?fù)?/div>
    的頭像 發(fā)表于 06-13 10:50 ?814次閱讀
    TPS62811-Q1 汽車類 2.75V 至 6V、1A 降壓轉(zhuǎn)換器,采用<b class='flag-5'>2</b>mm x 3mm可濕<b class='flag-5'>性</b>側(cè)面 QFN 封裝數(shù)據(jù)手冊

    專為低功耗/802.15.4/Thread/Zigbee/藍(lán)牙?應(yīng)用而設(shè)計(jì)的 2.4 GHz 前端模塊 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()專為低功耗/802.15.4/Thread/Zigbee/藍(lán)牙?應(yīng)用而設(shè)計(jì)的 2.4 GHz 前端模塊相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊,更有專為低功耗/802.15.4/Thread
    發(fā)表于 06-05 18:35
    <b class='flag-5'>專為</b>低功耗/802.15.4/Thread/Zigbee/藍(lán)牙?應(yīng)用<b class='flag-5'>而設(shè)</b>計(jì)的 2.4 GHz 前端模塊 skyworksinc

    通俗易懂說電能表Modbus RTU協(xié)議

    Modbus RTU協(xié)議憑借其開放、穩(wěn)定性和易用性,成為電能表通信的“標(biāo)配”
    的頭像 發(fā)表于 04-02 15:21 ?2038次閱讀
    通俗易懂說電能表Modbus RTU協(xié)議

    有獎(jiǎng)直播 | @4/8 輕松部署,強(qiáng)大擴(kuò)展邊緣運(yùn)算 AI 新世代

    (RockchipRK3588),該方案以高性價(jià)比和易用性為特色,支持主流深度學(xué)習(xí)框架(如TensorFlow、PyTorch、ONNX),讓企業(yè)與開發(fā)者輕松邁入
    的頭像 發(fā)表于 03-27 16:31 ?832次閱讀
    有獎(jiǎng)直播 | @4/8 輕松部署,強(qiáng)大擴(kuò)展邊緣運(yùn)算 AI 新世代