91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深入淺出地介紹了牛頓法、動量法、RMSProp、Adam優(yōu)化算法

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-08 09:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:DRDO研究人員Ayoosh Kathuria深入淺出地介紹了牛頓法、動量法、RMSProp、Adam優(yōu)化算法。

本系列的上一篇文章介紹了隨機(jī)梯度下降,以及如何應(yīng)對陷入局部極小值或鞍點的問題。在這篇文章中,我們將查看另一個困擾神經(jīng)網(wǎng)絡(luò)訓(xùn)練的問題,病態(tài)曲率。

局部極小值和鞍點會使訓(xùn)練停滯,而病態(tài)曲率則會減慢訓(xùn)練速度,以至于機(jī)器學(xué)習(xí)從業(yè)者可能會覺得搜索收斂到了一個次優(yōu)極小值。讓我們深入了解下什么是病態(tài)曲率。

病態(tài)曲率

考慮下面的損失曲面。

如你所見,我們從隨機(jī)點開始,漸漸進(jìn)入藍(lán)色的溝壑區(qū)。(顏色表示損失函數(shù)在特定點的值是高是低,紅色表示高值,藍(lán)色表示低值。)

在到達(dá)最小值之前,我們需要首先穿過溝壑區(qū),也就是病態(tài)曲率。讓我們放大一下這一區(qū)域,看看為什么稱病態(tài)?

紅線為梯度下降的路徑;藍(lán)線為理想路徑

如上圖所示,梯度下降在溝壑區(qū)的脊間反復(fù)振蕩,極其緩慢地向最小值處移動。這是因為w1方向要陡峭得多。

考慮下圖中A點的梯度,可以分解為w1、w2方向的兩個分量。w1方向的梯度要大很多,因此梯度的方向大為偏向w1,而不是w2(但w2才是能夠更快到達(dá)最小值處的梯度方向)。

通常情況下,我們使用低學(xué)習(xí)率來應(yīng)對這樣的反復(fù)振蕩,但在病態(tài)曲率區(qū)域使用低學(xué)習(xí)率,可能要花很多時間才能達(dá)到最小值處。事實上,有論文報告,防止反復(fù)振蕩的足夠小的學(xué)習(xí)率,也許會導(dǎo)致從業(yè)者相信損失完全沒有改善,干脆放棄訓(xùn)練。

大概,我們需要找到一種方法,首先緩慢地進(jìn)入病態(tài)曲率的平坦底部,然后加速往最小值方向移動。二階導(dǎo)數(shù)可以幫助我們做到這一點。

牛頓法

梯度下降是一階優(yōu)化方法。它只考慮損失函數(shù)的一階導(dǎo)數(shù),不考慮高階函數(shù)?;旧线@意味著它對損失函數(shù)的曲率一無所知。梯度下降可以告訴我們損失是否下降,下降得有多快,但無法區(qū)分曲線的的彎曲程度。

上圖三條曲線,紅點處的梯度都是一樣的,但曲率大不一樣。解決方案?考慮二階導(dǎo)數(shù),或者說梯度改變得有多快。

使用二階導(dǎo)數(shù)解決這一問題的一個非常流行的技術(shù)是牛頓法(Newton's Method)。為了避免偏離本文的主題,我不會過多探究牛頓法的數(shù)學(xué)。相反,我將嘗試構(gòu)建牛頓法的直覺。

牛頓法可以提供向梯度方向移動的理想步幅。由于我們現(xiàn)在具備了損失曲面的曲率信息,步幅可以據(jù)此確定,避免越過病態(tài)曲率的底部。

牛頓法通過計算Hessian矩陣做到這一點。Hessian矩陣是損失函數(shù)在所有權(quán)重組合上的二階導(dǎo)數(shù)的矩陣。

Hessian提供了損失曲面每一點上的曲率估計。正曲率意味著隨著我們的移動,損失曲面變得不那么陡峭了。負(fù)曲率則意味著,損失曲面變得越來越陡峭了。

注意,如果這一步的計算結(jié)果是負(fù)的,那就意味著我們可以切換回原本的算法。這對應(yīng)于下面梯度變得越來越陡峭的情形。

然而,如果梯度變得越來越不陡峭,那么我們也許正向病態(tài)曲率的底部移動。這時牛頓算法提供了一個修正過的學(xué)習(xí)步幅,和曲率成反比。換句話說,如果損失曲面變得不那么陡峭,學(xué)習(xí)步幅就下降。

為何我們不常使用牛頓法?

你已經(jīng)看到公式中的Hessian矩陣了。Hessian矩陣需要我們計算損失函數(shù)在所有權(quán)重組合上的梯度。也就是說,需要做的計算的數(shù)量級是神經(jīng)網(wǎng)絡(luò)所有權(quán)重數(shù)量的平方。

現(xiàn)代神經(jīng)網(wǎng)絡(luò)架構(gòu)的參數(shù)量可能是數(shù)億,計算數(shù)億的平方的梯度在算力上不可行。

雖然高階優(yōu)化方法在算力上不太可行,但二階優(yōu)化關(guān)于納入梯度自身如何改變的想法是可以借鑒的。雖然我們無法準(zhǔn)確計算這一信息,但我們可以基于之前梯度的信息使用啟發(fā)式算法引導(dǎo)優(yōu)化過程。

動量

搭配SGD使用的一個非常流行的技術(shù)是動量(Momentum)。動量法不僅使用當(dāng)前的梯度,同時還利用之前的梯度提供的信息。

上面的第一個等式就是動量,動量等式由兩部分組成,第一項是上一次迭代的動量,乘以“動量系數(shù)”。

比如,假設(shè)我們將初始動量v設(shè)為0,系數(shù)定為0.9,那么后續(xù)的更新等式為:

我們看到,后續(xù)的更新保留了之前的梯度,但最近的梯度權(quán)重更高。(致喜歡數(shù)學(xué)的讀者,這是梯度的指數(shù)平均。)

下面我們來看看動量法如何幫助我們緩解病態(tài)曲率的問題。下圖中,大多數(shù)梯度更新發(fā)生在之字形方向上,我們將每次更新分解為w1和w2方向上的兩個分量。如果我們分別累加這些梯度的兩個分量,那么w1方向上的分量將互相抵消,而w2方向上的分量得到了加強。

也就是說,基于動量法的更新,積累了w2方向上的分量,清空了w1方向上的分量,從而幫助我們更快地通往最小值。從這個意義上說,動量法也有助于抑制振蕩。

動量法同時提供了加速度,從而加快收斂。但你可能想要搭配模擬退火,以免跳過最小值。

在實踐中,動量系數(shù)一般初始化為0.5,并在多個epoch后逐漸退火至0.9.

RMSProp

RMSProp,也就是均方根傳播的歷史很有趣。它是傳奇人物Geoffrey Hinton在Coursera授課時初次提出的。

RMSProp也試圖抑制振蕩,但采取的方法和動量不同。此外,RMSProp可以自動調(diào)整學(xué)習(xí)率。還有,RMSProp為每個參數(shù)選定不同的學(xué)習(xí)率。

在第一個等式中,類似之前的動量法,我們計算了梯度平方的指數(shù)平均。由于我們?yōu)槊總€參數(shù)單獨計算,這里的梯度gt表示正更新的參數(shù)上的梯度投影。

第二個等式根據(jù)指數(shù)平均決定步幅大小。我們選定一個初始學(xué)習(xí)率η,接著除以平均數(shù)。在我們上面舉的例子中,w1的梯度指數(shù)平均比w2大得多,所以w1的學(xué)習(xí)步幅比w2小得多。這就幫助我們避免了脊間振蕩,更快地向最小值移動。

第三個等式不過是權(quán)重更新步驟。

上面的等式中,超參數(shù)ρ一般定為0.9,但你可能需要加以調(diào)整。等式2中的ε是為了確保除數(shù)不為零,一般定為1e-10.

注意RMSProp隱式地應(yīng)用了模擬退火。在向最小值移動的過程中,RMSProp會自動降低學(xué)習(xí)步幅,以免跳過最小值。

Adam

Adam,即Adaptive Moment Optimization算法結(jié)合了動量和RMSProp的啟發(fā)式算法。

這里,我們計算了梯度的指數(shù)平均和梯度平方的指數(shù)平均(等式1和等式2)。為了得出學(xué)習(xí)步幅,等式3在學(xué)習(xí)率上乘以梯度的平均(類似動量),除以梯度平方平均的均方根(類似RMSProp)。等式4是權(quán)重更新步驟。

超參數(shù)β1一般取0.9,β2一般取0.99. ε一般定為1e-10.

結(jié)語

本文介紹了三種應(yīng)對病態(tài)曲率同時加速訓(xùn)練過程的梯度下降方法。

在這三種方法之中,也許動量法用得更普遍,盡管從論文上看Adam更吸引人。經(jīng)驗表明這三種算法都能收斂到給定損失曲面的不同的最優(yōu)局部極小值。然而,動量法看起來要比Adam更容易找到比較平坦的最小值,而自適應(yīng)方法(自動調(diào)整學(xué)習(xí)率)傾向于迅速地收斂于較尖的最小值。比較平坦的最小值概括性更好。

盡管這些方法有助于我們馴服深度網(wǎng)絡(luò)難以控制的損失平面,隨著網(wǎng)絡(luò)日益變深,它們開始變得不夠用了。除了選擇更好的優(yōu)化方法,有相當(dāng)多的研究試圖尋找能夠生成更平滑的損失曲面的架構(gòu)。批量歸一化(Batch Normalization)和殘差連接(Residual Connections)正是這方面的兩個例子。我們會在后續(xù)的文章中詳細(xì)介紹它們。但這篇文章就到此為止了

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:深度學(xué)習(xí)優(yōu)化算法入門:二、動量、RMSProp、Adam

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    電動重卡直流充電槍為何要選易?

    隨著“雙碳”目標(biāo)深入推進(jìn),新能源重卡銷量持續(xù)攀升,2024年電動重卡占比已超90%。然而,重卡日均行駛里程長、運輸頻次高,傳統(tǒng)充電方案難以滿足其“高頻次、短間隔”的運營需求。易技術(shù)團(tuán)隊指出
    的頭像 發(fā)表于 03-06 14:48 ?41次閱讀
    電動重卡直流充電槍為何要選<b class='flag-5'>法</b><b class='flag-5'>法</b>易?

    節(jié)點分析的工作原理和基本步驟

    節(jié)點分析(節(jié)點電壓、節(jié)點電位)是一種電路分析技術(shù),以電路中各節(jié)點(連接點)的電位作為未知量,運用基爾霍夫電流定律(KCL)建立聯(lián)立方程進(jìn)行求解。作為與網(wǎng)孔分析同樣重要的經(jīng)典電路
    的頭像 發(fā)表于 02-05 14:50 ?386次閱讀
    節(jié)點分析<b class='flag-5'>法</b>的工作原理和基本步驟

    單片機(jī)ADC采樣算法-中位值平均濾波

    中位值平均濾波濾波就是通過連續(xù)采樣N個數(shù)據(jù),然后對數(shù)據(jù)從小到大排序,然后去掉最大值和最小值,對剩余的N-2個值計算算數(shù)平均值。也就是中位值濾波和算數(shù)平均濾波的結(jié)合。 下面看C代碼的實現(xiàn)
    發(fā)表于 01-22 06:17

    深入淺出:SN65LVDSxxx高速差分線驅(qū)動與接收器解析

    深入淺出:SN65LVDSxxx高速差分線驅(qū)動與接收器解析 在高速數(shù)據(jù)傳輸?shù)念I(lǐng)域中,低電壓差分信號(LVDS)技術(shù)以其低功耗、高速度和抗干擾能力強等優(yōu)勢,成為了眾多電子工程師的首選。德州儀器(TI
    的頭像 發(fā)表于 01-15 15:30 ?230次閱讀

    深入淺出GMSSL:掌握SM2、SM3、SM4國密算法的高效實踐

    隨著國家信息安全戰(zhàn)略的推進(jìn),國密算法在各類安全系統(tǒng)中的應(yīng)用日益廣泛。GMSSL作為支持國密標(biāo)準(zhǔn)的重要工具庫,為開發(fā)者提供SM2(非對稱加密)、SM3(哈希算法)和SM4(對稱加密)的完整實現(xiàn)。本文
    的頭像 發(fā)表于 12-12 18:20 ?624次閱讀
    <b class='flag-5'>深入淺出</b>GMSSL:掌握SM2、SM3、SM4國密<b class='flag-5'>算法</b>的高效實踐

    易二代充電槍解鎖充電新境界

    的基礎(chǔ)上采用零鎖槍方案和更輕的槍體設(shè)計,重新定義充電新體驗。傳統(tǒng)鎖槍機(jī)制因操作復(fù)雜或故障率高,易引發(fā)用戶抱怨。易推出零鎖槍方案,用戶無需等待,即插即用,大幅提升
    的頭像 發(fā)表于 07-07 10:41 ?676次閱讀
    <b class='flag-5'>法</b><b class='flag-5'>法</b>易二代充電槍解鎖充電新境界

    100微電容怎么測量

    本文介紹三種主流測量電容的方法:萬用表直接測量、指針式萬用表、差動式直流充電。其中,萬用表直接測量操作簡單、成本低,適合現(xiàn)場維修等場
    的頭像 發(fā)表于 06-22 09:52 ?2138次閱讀
    100微<b class='flag-5'>法</b>電容怎么測量

    VirtualLab:光柵的優(yōu)化與分析

    算法: TEA和FMM(也稱為RCWA)。比較不同周期的兩種類型的光柵(正弦和閃耀)結(jié)果。 傾斜光柵的參數(shù)優(yōu)化及公差分析 以傅里葉模態(tài)(FMM)作為參數(shù)
    發(fā)表于 05-23 08:49

    門老師教你快速看懂電子電路圖

    本文從最基本的電容電阻開講,包含模電數(shù)電,以及部分電氣知識點,深入淺出。 資料介紹: 全文共分7課,以老師授課和師生交流的形式系統(tǒng)地介紹電子電路識圖方面的基本知識和技能,包括電路圖的
    發(fā)表于 05-16 15:17

    程序設(shè)計與數(shù)據(jù)結(jié)構(gòu)

    的地址)出發(fā),采用推導(dǎo)的方式,深入淺出的分析廣大C程序員學(xué)習(xí)和開發(fā)中遇到的難點。 2. 從方法論的高度對C語言在數(shù)據(jù)結(jié)構(gòu)和算法方面的應(yīng)用進(jìn)行了深入講解和闡述。 3. 講解了絕大多
    發(fā)表于 05-13 16:45

    深入淺出解析低功耗藍(lán)牙協(xié)議棧

    深入Bluetooth LE協(xié)議棧各個組成部分之前,我們先看一下Bluetooth LE協(xié)議棧整體架構(gòu)。 如上圖所述,要實現(xiàn)一個Bluetooth LE應(yīng)用,首先需要一個支持Bluetooth
    的頭像 發(fā)表于 04-09 14:49 ?1306次閱讀
    <b class='flag-5'>深入淺出</b>解析低功耗藍(lán)牙協(xié)議棧

    2025 中國華東智能家居創(chuàng)新技術(shù)研討會現(xiàn)場直擊,高精度算法如何改變生活?--其利天下

    在此次展會上,我司技術(shù)總監(jiān)馮建武先生帶來了《智能家居的 “心臟” 革命:高精度電機(jī)驅(qū)動算法如何重塑未來生活》的演講,深入淺出地闡述我司目前在無刷馬達(dá)自適應(yīng)算法、FOC控制
    的頭像 發(fā)表于 03-30 11:11 ?991次閱讀
    2025 中國華東智能家居創(chuàng)新技術(shù)研討會現(xiàn)場直擊,高精度<b class='flag-5'>算法</b>如何改變生活?--其利天下

    易400A風(fēng)冷充電槍助力電動重卡充電提速

    據(jù)易官方消息,易400A風(fēng)冷充電槍已成功在重卡充電站上得到了廣泛的應(yīng)用。目前重卡充電在行業(yè)內(nèi)受到廣泛的關(guān)注,
    的頭像 發(fā)表于 03-18 16:29 ?1521次閱讀
    <b class='flag-5'>法</b><b class='flag-5'>法</b>易400A風(fēng)冷充電槍助力電動重卡充電提速

    《零基礎(chǔ)開發(fā)AI Agent——手把手教你用扣子做智能體》

    《零基礎(chǔ)開發(fā)AI Agent——手把手教你用扣子做智能體》是一本為普通人量身打造的AI開發(fā)指南。它不僅深入淺出地講解了Agent的概念和發(fā)展,還通過詳細(xì)的工具介紹和實戰(zhàn)案例,幫助讀者快速掌握
    發(fā)表于 03-18 12:03

    VirtualLab Fusion應(yīng)用:非近軸衍射分束器的設(shè)計與優(yōu)化

    介紹這一部分。 非近軸衍射分束器的嚴(yán)格分析 采用傅里葉模態(tài)(FMM)對非近軸衍射分束器進(jìn)行了嚴(yán)格的評價,該方法最初采用迭代傅里葉變換算法(IFTA)和薄元近似
    發(fā)表于 03-10 08:56