91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

1024塊TPU在燃燒!將BERT預訓練模型的訓練時長從3天縮減到了76分鐘

電子工程師 ? 來源:lp ? 2019-04-04 16:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

“Jeff Dean稱贊,TensorFlow官方推特支持,BERT目前工業(yè)界最耗時的應(yīng)用,計算量遠高于ImageNet。我們將BERT的訓練時間從三天縮短到了一小時多?!盪C Berkeley大學在讀博士尤洋如是說道。

近日,來自Google、UC Berkeley、UCLA研究團隊再度合作,成功燃燒1024塊TPU,將BERT預訓練模型的訓練時長從3天縮減到了76分鐘。batch size技術(shù)是加速神經(jīng)網(wǎng)絡(luò)訓練的關(guān)鍵,在“Reducing BERT Pre-Training Time from 3 Days to 76 Minutes”這篇論文中,作者提出了LAMB優(yōu)化器,它支持自適應(yīng)元素更新和分層校正。

論文傳送門:https://arxiv.org/pdf/1904.00962.pdf

論文摘要:batch size增加到很大時的模型訓練是加速大型分布式系統(tǒng)中深度神經(jīng)網(wǎng)絡(luò)訓練的關(guān)鍵。但是,這種模型訓練很難,因為它會導致一種泛化差距。直接優(yōu)化通常會導致測試集上的準確性下降。

BERT是一種先進的深度學習模型,它建立在語義理解的深度雙向轉(zhuǎn)換器上。當我們增加batch size的大小(如超過8192)時,此前的模型訓練技巧在BERT上表現(xiàn)得并不好。BERT預訓練也需要很長時間才能完成,如在16個TPUv3上大約需要三天。

為了解決這個問題,我們提出了LAMB優(yōu)化器,可將batch size擴展到65536,且不會降低準確率。LAMB是一個通用優(yōu)化器,batch size大小均使用,且除了學習率之外不需要別的參數(shù)調(diào)整。

基線BERT-Large模型需要100萬次迭代才能完成預訓練,而batch size大小為65536/32768的LAMB僅需要8599次迭代。我們還將batch size進行內(nèi)存限制,接近TPUv3 pod,結(jié)果可在76分鐘內(nèi)完成BERT訓練。

據(jù)悉,該論文的一作是來自UC Berkeley計算機科學部的在讀博士尤洋,同時也是Google Brain的實習生。據(jù)公開信息顯示,尤洋的導師是美國科學院與工程院院士,ACM/IEEE fellow,伯克利計算機系主任,以及首批中關(guān)村海外顧問James Demmel教授。他當前的研究重點是大規(guī)模深度學習訓練算法的分布式優(yōu)化。2017年9月,尤洋等人的新算法以24分鐘完成ImageNet訓練,刷新世界紀錄。

在此之前,他曾在英特爾實驗室、微軟研究院、英偉達、IBM沃森研究中心等機構(gòu)實習。尤洋本科就讀于中國農(nóng)業(yè)大學計算機系,碩士保送清華大學計算機系,是一名杠杠的理工學霸!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4838

    瀏覽量

    107737
  • TPU
    TPU
    +關(guān)注

    關(guān)注

    0

    文章

    170

    瀏覽量

    21654
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5598

    瀏覽量

    124392
  • 訓練模型
    +關(guān)注

    關(guān)注

    1

    文章

    37

    瀏覽量

    4071

原文標題:1024塊TPU在燃燒!BERT訓練從3天縮短到76分鐘 | 技術(shù)頭條

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    訓練到推理:大模型算力需求的新拐點已至

    模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點主要集中模型訓練所需的算力投入。一個萬億參數(shù)大模型
    的頭像 發(fā)表于 02-05 16:07 ?790次閱讀
    <b class='flag-5'>從</b><b class='flag-5'>訓練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點已至

    Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    本帖欲分享Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓練框架,目標是
    發(fā)表于 10-22 07:03

    基于大規(guī)模人類操作數(shù)據(jù)訓練的VLA模型H-RDT

    近年來,機器人操作領(lǐng)域的VLA模型普遍基于跨本體機器人數(shù)據(jù)集訓練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導致統(tǒng)一訓練困難;現(xiàn)有大規(guī)模機器人演示數(shù)據(jù)稀缺且質(zhì)量參差不齊。得
    的頭像 發(fā)表于 08-21 09:56 ?1093次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    【Sipeed MaixCAM Pro開發(fā)板試用體驗】 + 04 + 機器學習YOLO體驗

    的查找數(shù)字的模型 前提條件是我擁有9個分別是漢字1-9的物牌,從中任意拿走一個,通過對剩余物牌的識別,可以快速的得到被拿走的物牌并進行屏幕顯示。 相關(guān)演示見頂部和底部視頻
    發(fā)表于 07-24 21:35

    make sence成的XML文件能上傳到自助訓練模型上嗎?

    make sence成的XML文件能上傳到自助訓練模型上嗎
    發(fā)表于 06-23 07:38

    海思SD3403邊緣計算AI數(shù)據(jù)訓練概述

    模型,模型轉(zhuǎn)化為嵌入式AI模型,模型升級AI攝像機,進行AI識別應(yīng)用。 AI訓練
    發(fā)表于 04-28 11:11

    陣列云訓練到推理

    云場景下,陣列云(分布式計算集群)模型訓練到推理的完整技術(shù)流程可結(jié)構(gòu)化分解如下: 一、訓練階段技術(shù)實現(xiàn) 1,資源動態(tài)編排? 基于Kube
    的頭像 發(fā)表于 03-28 08:32 ?660次閱讀

    請問如何在imx8mplus上部署和運行YOLOv5訓練模型

    我正在從事 imx8mplus yocto 項目。我已經(jīng)自定義數(shù)據(jù)集上的 YOLOv5 上訓練了對象檢測模型。它在 ubuntu 電腦上運行良好?,F(xiàn)在我想在我的 imx8mplus 板上運行該
    發(fā)表于 03-25 07:23

    用PaddleNLP為GPT-2模型制作FineWeb二進制訓練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP4060單卡上實踐大模型訓練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進一步講解更多的技術(shù)細節(jié)。本文主要針對大語言
    的頭像 發(fā)表于 03-21 18:24 ?4290次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制<b class='flag-5'>預</b><b class='flag-5'>訓練</b>數(shù)據(jù)集

    數(shù)據(jù)標注服務(wù)—奠定大模型訓練的數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。模型訓練中,數(shù)
    的頭像 發(fā)表于 03-21 10:30 ?3267次閱讀

    憶聯(lián)PCIe 5.0 SSD支撐大模型全流程訓練

    到高頻參數(shù)迭代,模型微調(diào)到實時推理,大模型運行的每一個環(huán)節(jié)都需存儲設(shè)備“硬指標”與“軟實力”間達成平衡。產(chǎn)品可靠性視角出發(fā),憶聯(lián)新一代
    的頭像 發(fā)表于 03-11 10:26 ?1138次閱讀
    憶聯(lián)PCIe 5.0 SSD支撐大<b class='flag-5'>模型</b>全流程<b class='flag-5'>訓練</b>

    訓練好的ai模型導入cubemx不成功怎么處理?

    訓練好的ai模型導入cubemx不成功咋辦,試了好幾個模型壓縮了也不行,ram占用過大,有無解決方案?
    發(fā)表于 03-11 07:18

    預先訓練的固態(tài)盤MobileNetV2模型轉(zhuǎn)換為IR,在運行替換器“REPLACEMENT_ID”時發(fā)生異常錯誤怎么解決?

    預先訓練的固態(tài)盤 MobileNetV2 模型轉(zhuǎn)換為 IR,但無法轉(zhuǎn)換經(jīng)過自定義訓練模型。 導出的凍結(jié)
    發(fā)表于 03-07 08:01

    使用OpenVINO? 2021.4經(jīng)過訓練的自定義PyTorch模型加載為IR格式時遇到錯誤怎么解決?

    使用 OpenVINO? 2021.4 經(jīng)過訓練的自定義 PyTorch 模型加載為 IR 格式時遇到錯誤: RuntimeError: [ GENERAL_ERROR ] Failed
    發(fā)表于 03-05 08:40

    Open Model Zoo下載的FastSeg大型公共訓練模型,無法導入名稱是怎么回事?

    Open Model Zoo 下載的 FastSeg 大型公共訓練模型。 運行 converter.py 以 FastSeg
    發(fā)表于 03-05 07:22