91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

首個(gè)關(guān)于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練相關(guān)的理論證明

倩倩 ? 來源:新智元 ? 2020-04-17 11:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

谷歌AI最新發(fā)布的一篇論文給出了首個(gè)關(guān)于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練相關(guān)的理論證明,實(shí)驗(yàn)觀察結(jié)果也為初步解釋梯度下降強(qiáng)于貝葉斯優(yōu)化奠定了基礎(chǔ)。神經(jīng)網(wǎng)絡(luò)的理論面紗,正逐步被揭開。

原來,神經(jīng)網(wǎng)絡(luò)實(shí)際上跟線性模型并沒那么大不同!

谷歌AI的研究人員日前在arxiv貼出一篇文章,給出了首個(gè)神經(jīng)網(wǎng)絡(luò)訓(xùn)練相關(guān)的理論證明。

實(shí)驗(yàn)中,他們將一個(gè)實(shí)際的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程與線性模型的訓(xùn)練過程相比,發(fā)現(xiàn)兩者高度一致。這里用到的神經(jīng)網(wǎng)絡(luò)是一個(gè)wide ResNet,包括ReLU層、卷積層、pooling層和batch normalization;線性模型是用ResNet關(guān)于其初始(隨機(jī))參數(shù)的泰勒級數(shù)建立的網(wǎng)絡(luò)。

將神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程與線性模型的相比,兩者高度一致

在多個(gè)不同模型上試驗(yàn)并排除量化誤差后,觀察結(jié)果依舊保持一致。由此,谷歌AI研究人員得出結(jié)論,當(dāng)學(xué)習(xí)率比較小且網(wǎng)絡(luò)足夠?qū)挘ú槐責(zé)o限寬)的時(shí)候,神經(jīng)網(wǎng)絡(luò)就是線性模型。

由此得出的一個(gè)推論是,使用梯度下降訓(xùn)練的大型網(wǎng)絡(luò)集成能夠用一個(gè)高斯過程描述,而且在梯度下降的任意時(shí)間都能用完備形式化描述這個(gè)高斯過程。

這些觀察結(jié)果也構(gòu)成了一個(gè)理論框架基礎(chǔ),可以用來初步解釋長期以來困擾深度學(xué)習(xí)研究界的一個(gè)難題:梯度下降究竟在哪些情況下,具體是如何優(yōu)于貝葉斯優(yōu)化?

在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)被戲謔為“調(diào)參煉丹”的當(dāng)下,這一發(fā)現(xiàn)猶如一道希望的強(qiáng)光,射進(jìn)還被排除在“科學(xué)”之外的深度學(xué)習(xí)領(lǐng)域,激動(dòng)人心。

相關(guān)論文:使用梯度下降訓(xùn)練的任意深度的Wide神經(jīng)網(wǎng)絡(luò)與線性模型的一致性

終于,調(diào)參不再是煉丹:首個(gè)關(guān)于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的理論證明

基于深度神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)模型在許多任務(wù)中取得了前所未有的性能。通常,這些模型被認(rèn)為是復(fù)雜系統(tǒng),其中許多類型的理論分析是很棘手的。此外,由于控制優(yōu)化的通常是高維的非凸損失平面(non-convex loss surfaces),因此要描述這些模型的基于梯度的訓(xùn)練動(dòng)態(tài)機(jī)制具有挑戰(zhàn)性。

就像在物理科學(xué)中常見的那樣,研究這些系統(tǒng)的極限通??梢越忉屵@些難題。對于神經(jīng)網(wǎng)絡(luò)來說,其中一個(gè)極限就是它的“無限寬度”(infinite width),指的是完全連接層中的隱藏單元數(shù)量,或卷積層中的通道數(shù)量。

在此限制下,網(wǎng)絡(luò)初始化時(shí)的輸出取自高斯過程(GP);此外,在使用平方損失進(jìn)行精確貝葉斯訓(xùn)練后,網(wǎng)絡(luò)輸出仍然由GP控制。除了理論上的簡單性,nfinite-width這一限制也具有實(shí)際意義,因?yàn)樵S多研究已經(jīng)證明,更寬的網(wǎng)絡(luò)可以更好地進(jìn)行泛化。

在這項(xiàng)工作中,我們探索了梯度下降下寬的神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)動(dòng)態(tài)機(jī)制(learning dynamics),并發(fā)現(xiàn)動(dòng)態(tài)的權(quán)重空間描述變得非常簡單:隨著寬度變大,神經(jīng)網(wǎng)絡(luò)可以有效地被關(guān)于其初始化參數(shù)的一階泰勒展開式(first-order Taylor expansion)取代。

對于這種誘導(dǎo)的線性模型,梯度下降的動(dòng)態(tài)機(jī)制變得易于分析了。雖然線性化只在無限寬度限制下是精確的,但我們發(fā)現(xiàn),即使是有限寬度的情況下,原始網(wǎng)絡(luò)的預(yù)測與線性化版本的預(yù)測仍然非常一致。這種一致性在不同的架構(gòu)、優(yōu)化方法和損失函數(shù)之間都存在。

對于平方損失(squared loss),精確的學(xué)習(xí)動(dòng)態(tài)機(jī)制允許封閉形式的解決方案,這允許我們用GP來描述預(yù)測分布的演化。這一結(jié)果可以看作是“先采樣再優(yōu)化”(sample-then-optimize)后驗(yàn)采樣對深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的延伸。我們的經(jīng)驗(yàn)模擬證實(shí),該結(jié)果準(zhǔn)確地模擬了具有不同隨機(jī)初始化的有限寬度模型集合中預(yù)測的變化。

谷歌AI的研究人員表示,這篇論文的幾大主要貢獻(xiàn)包括:

首先,我們以 Jacot et al. (2018) 最近的研究成果為基礎(chǔ),該成果描述了在infinite width 限制下,整個(gè)梯度下降訓(xùn)練過程中網(wǎng)絡(luò)輸出的精確動(dòng)態(tài)。他們的結(jié)果證明了參數(shù)空間的梯度下降對應(yīng)于函數(shù)空間中關(guān)于新核的核梯度下降(kernel gradient descent),即Neural Tangent Kernel (NTK)。

我們工作的一個(gè)關(guān)鍵貢獻(xiàn)是證明了參數(shù)空間中的動(dòng)態(tài)等價(jià)于所有網(wǎng)絡(luò)參數(shù)、權(quán)重和偏差集合中的仿射模型的訓(xùn)練動(dòng)態(tài)。無論損失函數(shù)的選擇如何,這個(gè)結(jié)果都成立。在平方損失的情況下, dynamics允許一個(gè)封閉形式的解作為時(shí)間函數(shù)。

無限寬(infinitely wide)神經(jīng)網(wǎng)絡(luò)初始化時(shí)的輸出是高斯的,并且如Jacot et al.(2018)中所述,平方損失在整個(gè)訓(xùn)練過程中始終是高斯的。我們推導(dǎo)了該GP的均值和協(xié)方差函數(shù)的顯式時(shí)間依賴表達(dá)式,并為結(jié)果提供了新的解釋。

具體來說,該解釋對梯度下降與參數(shù)的貝葉斯后驗(yàn)采樣的不同機(jī)制提供了一種定量理解:雖然這兩種方法都取自GP,但梯度下降不會(huì)從任何概率模型的后驗(yàn)生成樣本。

這一觀察結(jié)果與(Matthews et al.,2017)的“先采樣后優(yōu)化”(sample-then-optimize)框架形成了對比,在該框架中,只訓(xùn)練頂層權(quán)重,梯度下降從貝葉斯后驗(yàn)采樣。

這些觀察構(gòu)成了一個(gè)框架,用來分析長期存在的問題,如梯度下降是否、如何以及在何種情況下提供了相對于貝葉斯推理的具體好處。

正如Chizat & Bach (2018b)中論述的,這些理論結(jié)果可能過于簡單,無法適用于現(xiàn)實(shí)的神經(jīng)網(wǎng)絡(luò)。但是,我們通過實(shí)證研究證明了該理論在finite-width設(shè)置中的適用性,發(fā)現(xiàn)它準(zhǔn)確地描述了各種條件下的學(xué)習(xí)動(dòng)態(tài)機(jī)制和后驗(yàn)函數(shù)分布,包括一些實(shí)際的網(wǎng)絡(luò)架構(gòu),如Wide Residual Network(Zagoruyko & Komodakis, 2016)。

具體實(shí)驗(yàn):無限寬的神經(jīng)網(wǎng)絡(luò)就是線性模型

線性化網(wǎng)絡(luò)(linearized network)

此處,我們將考慮線性化網(wǎng)絡(luò)的訓(xùn)練動(dòng)態(tài),具體地說,就是用一階泰勒展開代替神經(jīng)網(wǎng)絡(luò)的輸出:

值得注意的是,flint是兩項(xiàng)之和:第一項(xiàng)是網(wǎng)絡(luò)的初始輸出,在訓(xùn)練過程中保持不變;第二項(xiàng)是在訓(xùn)練過程中捕捉對初始值的變化。

使用這個(gè)線性化函數(shù)的梯度流的動(dòng)態(tài)受到如下約束:

無限寬度限制產(chǎn)生高斯過程

當(dāng)隱藏層的寬度接近無窮大時(shí),中心極限定理(CLT)意味著初始化{f0(x)}x∈X時(shí)的輸出在分布上收斂于多元高斯分布。這一點(diǎn)可以用歸納法非正式的進(jìn)行證明。

因此,隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò)對應(yīng)于一類高斯過程(以下簡稱NNGP),將有利于神經(jīng)網(wǎng)絡(luò)的完全貝葉斯處理。

梯度下降訓(xùn)練中的高斯過程

如果我們在初始化之后凍結(jié)變量θ≤L,并且只優(yōu)化θ≤L+1,那么原始網(wǎng)絡(luò)及其線性化是相同的。讓寬度趨于無窮,這個(gè)特殊的tangent kernel的概率將收斂于K。這是用于評估高斯過程后驗(yàn)的“先采樣后優(yōu)化”方法的實(shí)現(xiàn)。

我們對比了NNGP、NTK-GP和NN集合的預(yù)測分布,如下圖所示:

訓(xùn)練神經(jīng)網(wǎng)絡(luò)輸出的均值和方差的動(dòng)態(tài)遵循線性化的分析動(dòng)態(tài)機(jī)制

黑線表示來自100個(gè)訓(xùn)練神經(jīng)網(wǎng)絡(luò)集合的預(yù)測輸出分布的時(shí)間演變; 藍(lán)色區(qū)域表示整個(gè)訓(xùn)練中輸出分布的分析預(yù)測;最后,紅色區(qū)域表示僅訓(xùn)練頂層的預(yù)測,對應(yīng)于NNGP。

受過訓(xùn)練的網(wǎng)絡(luò)有3個(gè)隱藏層,寬度為8192。陰影區(qū)域和虛線表示平均值的2個(gè)標(biāo)準(zhǔn)偏差。

無限寬度網(wǎng)絡(luò)是線性化網(wǎng)絡(luò)

原始網(wǎng)絡(luò)的常微分方程(ODE)在一般情況下是不可解的。在積分函數(shù)梯度范數(shù)保持隨機(jī)有界為n1,n2,…,nL→∞的技術(shù)假設(shè)下:

值得注意的是,上面公式中的上界只是理論性的,是根據(jù)經(jīng)驗(yàn)觀察得到的:

訓(xùn)練過程中Relative Frobenius范數(shù)的改變

在MSE設(shè)置中,我們可以對原始網(wǎng)絡(luò)的輸出與其線性化輸出之間的差異進(jìn)行上限:

對于非常寬的網(wǎng)絡(luò),我們可以用線性化動(dòng)態(tài)機(jī)制來近似訓(xùn)練動(dòng)態(tài)機(jī)制。

而從網(wǎng)絡(luò)線性化中獲得的另一個(gè)見解是,動(dòng)態(tài)機(jī)制等效于隨機(jī)特征法,其中,特征是模型相對于其權(quán)重的梯度。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    神經(jīng)網(wǎng)絡(luò)的初步認(rèn)識(shí)

    日常生活中的智能應(yīng)用都離不開深度學(xué)習(xí),而深度學(xué)習(xí)則依賴于神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)。什么是神經(jīng)網(wǎng)絡(luò)?神經(jīng)網(wǎng)絡(luò)的核心思想是模仿生物
    的頭像 發(fā)表于 12-17 15:05 ?325次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的初步認(rèn)識(shí)

    自動(dòng)駕駛中常提的卷積神經(jīng)網(wǎng)絡(luò)是個(gè)啥?

    在自動(dòng)駕駛領(lǐng)域,經(jīng)常會(huì)聽到卷積神經(jīng)網(wǎng)絡(luò)技術(shù)。卷積神經(jīng)網(wǎng)絡(luò),簡稱為CNN,是一種專門用來處理網(wǎng)格狀數(shù)據(jù)(比如圖像)的深度學(xué)習(xí)模型。CNN在圖像處理中尤其常見,因?yàn)閳D像本身就可以看作是由像素排列成的二維網(wǎng)格。
    的頭像 發(fā)表于 11-19 18:15 ?2076次閱讀
    自動(dòng)駕駛中常提的卷積<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>是個(gè)啥?

    CNN卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)原理及在MCU200T上仿真測試

    數(shù)的提出很大程度的解決了BP算法在優(yōu)化深層神經(jīng)網(wǎng)絡(luò)時(shí)的梯度耗散問題。當(dāng)x&gt;0 時(shí),梯度恒為1,無梯度耗散問題,收斂快;當(dāng)x&lt;0 時(shí),該層的輸出為0。 CNN
    發(fā)表于 10-29 07:49

    NMSIS神經(jīng)網(wǎng)絡(luò)庫使用介紹

    NMSIS NN 軟件庫是一組高效的神經(jīng)網(wǎng)絡(luò)內(nèi)核,旨在最大限度地提高 Nuclei N 處理器內(nèi)核上的神經(jīng)網(wǎng)絡(luò)的性能并最??大限度地減少其內(nèi)存占用。 該庫分為多個(gè)功能,每個(gè)功能涵蓋特定類別
    發(fā)表于 10-29 06:08

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是訓(xùn)練一個(gè)手寫數(shù)字識(shí)
    發(fā)表于 10-22 07:03

    CICC2033神經(jīng)網(wǎng)絡(luò)部署相關(guān)操作

    在完成神經(jīng)網(wǎng)絡(luò)量化后,需要將神經(jīng)網(wǎng)絡(luò)部署到硬件加速器上。首先需要將所有權(quán)重?cái)?shù)據(jù)以及輸入數(shù)據(jù)導(dǎo)入到存儲(chǔ)器內(nèi)。 在仿真環(huán)境下,可將其存于一個(gè)文件,并在 Verilog 代碼中通過 readmemh 函數(shù)
    發(fā)表于 10-20 08:00

    液態(tài)神經(jīng)網(wǎng)絡(luò)(LNN):時(shí)間連續(xù)性與動(dòng)態(tài)適應(yīng)性的神經(jīng)網(wǎng)絡(luò)

    1.算法簡介液態(tài)神經(jīng)網(wǎng)絡(luò)(LiquidNeuralNetworks,LNN)是一種新型的神經(jīng)網(wǎng)絡(luò)架構(gòu),其設(shè)計(jì)理念借鑒自生物神經(jīng)系統(tǒng),特別是秀麗隱桿線蟲的神經(jīng)結(jié)構(gòu),盡管這種微生物的
    的頭像 發(fā)表于 09-28 10:03 ?1212次閱讀
    液態(tài)<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>(LNN):時(shí)間連續(xù)性與動(dòng)態(tài)適應(yīng)性的<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>

    神經(jīng)網(wǎng)絡(luò)的并行計(jì)算與加速技術(shù)

    隨著人工智能技術(shù)的飛速發(fā)展,神經(jīng)網(wǎng)絡(luò)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和廣泛的應(yīng)用前景。然而,神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜度和規(guī)模也在不斷增加,這使得傳統(tǒng)的串行計(jì)算方式面臨著巨大的挑戰(zhàn),如計(jì)算速度慢、訓(xùn)練時(shí)間長等
    的頭像 發(fā)表于 09-17 13:31 ?1126次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的并行計(jì)算與加速技術(shù)

    如何在機(jī)器視覺中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

    圖 1:基于深度學(xué)習(xí)的目標(biāo)檢測可定位已訓(xùn)練的目標(biāo)類別,并通過矩形框(邊界框)對其進(jìn)行標(biāo)識(shí)。 在討論人工智能(AI)或深度學(xué)習(xí)時(shí),經(jīng)常會(huì)出現(xiàn)“神經(jīng)網(wǎng)絡(luò)”、“黑箱”、“標(biāo)注”等術(shù)語。這些概
    的頭像 發(fā)表于 09-10 17:38 ?901次閱讀
    如何在機(jī)器視覺中部署<b class='flag-5'>深度</b>學(xué)習(xí)<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>

    基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真模型解決方案

    在基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真(DPD)模型中,使用不同的激活函數(shù)對整個(gè)系統(tǒng)性能和能效有何影響?
    的頭像 發(fā)表于 08-29 14:01 ?3471次閱讀

    無刷電機(jī)小波神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)子位置檢測方法的研究

    摘要:論文通過對無刷電機(jī)數(shù)學(xué)模型的推導(dǎo),得出轉(zhuǎn)角:與三相相電壓之間存在映射關(guān)系,因此構(gòu)建了一個(gè)以三相相電壓為輸人,轉(zhuǎn)角為輸出的小波神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)轉(zhuǎn)角預(yù)測,并采用改進(jìn)遺傳算法來訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù),借助
    發(fā)表于 06-25 13:06

    神經(jīng)網(wǎng)絡(luò)專家系統(tǒng)在電機(jī)故障診斷中的應(yīng)用

    摘要:針對傳統(tǒng)專家系統(tǒng)不能進(jìn)行自學(xué)習(xí)、自適應(yīng)的問題,本文提出了基于種經(jīng)網(wǎng)絡(luò)專家系統(tǒng)的并步電機(jī)故障診斷方法。本文將小波神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng)相結(jié)合,充分發(fā)揮了二者故障診斷的優(yōu)點(diǎn),很大程度上降低了對電機(jī)
    發(fā)表于 06-16 22:09

    神經(jīng)網(wǎng)絡(luò)RAS在異步電機(jī)轉(zhuǎn)速估計(jì)中的仿真研究

    眾多方法中,由于其結(jié)構(gòu)簡單,穩(wěn)定性好廣泛受到人們的重視,且已被用于產(chǎn)品開發(fā)。但是MRAS仍存在在低速區(qū)速度估計(jì)精度下降和對電動(dòng)機(jī)參數(shù)變化非常敏感的問題。本文利用神經(jīng)網(wǎng)絡(luò)的特點(diǎn),使估計(jì)更為簡單、快速
    發(fā)表于 06-16 21:54

    基于FPGA搭建神經(jīng)網(wǎng)絡(luò)的步驟解析

    本文的目的是在一個(gè)神經(jīng)網(wǎng)絡(luò)已經(jīng)通過python或者M(jìn)ATLAB訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,將訓(xùn)練好的模型的權(quán)重和偏置文件以TXT文件格式導(dǎo)出,然后通過python程序?qū)xt文件轉(zhuǎn)化為coe
    的頭像 發(fā)表于 06-03 15:51 ?1210次閱讀
    基于FPGA搭建<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的步驟解析

    NVIDIA實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破性增強(qiáng)功能

    近日,NVIDIA 宣布了 NVIDIA RTX 神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破性增強(qiáng)功能。NVIDIA 與微軟合作,將在 4 月的 Microsoft DirectX 預(yù)覽版中增加神經(jīng)網(wǎng)絡(luò)著色技術(shù),讓開
    的頭像 發(fā)表于 04-07 11:33 ?1176次閱讀