91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解決機器學(xué)習(xí)中有關(guān)學(xué)習(xí)率的常見問題

倩倩 ? 來源:不靠譜的貓 ? 2020-04-15 11:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

什么是學(xué)習(xí)率?它的用途是什么?

神經(jīng)網(wǎng)絡(luò)計算其輸入的加權(quán)和,并通過一個激活函數(shù)得到輸出。為了獲得準確的預(yù)測,一種稱為梯度下降的學(xué)習(xí)算法會在從輸出向輸入后退的同時更新權(quán)重。

梯度下降優(yōu)化器通過最小化一個損失函數(shù)(L)來估計模型權(quán)重在多次迭代中的良好值,這就是學(xué)習(xí)率發(fā)揮作用的地方。它控制模型學(xué)習(xí)的速度,換句話說,控制權(quán)重更新到l最小點的速度。新(更新后)和舊(更新前)權(quán)重值之間的關(guān)系如下:

學(xué)習(xí)率是否為負值?

梯度L/w是損失函數(shù)遞增方向上的向量。L/w是L遞減方向上的向量。由于η大于0,因此是正值,所以-ηL/w朝L的減小方向向其最小值邁進。如果η為負值,則您正在遠離最小值,這是它正在改變梯度下降的作用,甚至使神經(jīng)網(wǎng)絡(luò)無法學(xué)習(xí)。如果您考慮一個負學(xué)習(xí)率值,則必須對上述方程式做一個小更改,以使損失函數(shù)保持最?。?/p>

學(xué)習(xí)率的典型值是多少?

學(xué)習(xí)率的典型值范圍為10 E-6和1。

梯度學(xué)習(xí)率選擇錯誤的問題是什么?

達到最小梯度所需的步長直接影響機器學(xué)習(xí)模型的性能:

小的學(xué)習(xí)率會消耗大量的時間來收斂,或者由于梯度的消失而無法收斂,即梯度趨近于0。

大的學(xué)習(xí)率使模型有超過最小值的風(fēng)險,因此它將無法收斂:這就是所謂的爆炸梯度。

梯度消失(左)和梯度爆炸(右)

因此,您的目標是調(diào)整學(xué)習(xí)率,以使梯度下降優(yōu)化器以最少的步數(shù)達到L的最小點。通常,您應(yīng)該選擇理想的學(xué)習(xí)率,該速率應(yīng)足夠小,以便網(wǎng)絡(luò)能夠收斂但不會導(dǎo)致梯度消失,還應(yīng)足夠大,以便可以在合理的時間內(nèi)訓(xùn)練模型而不會引起爆炸梯度。

除了對學(xué)習(xí)率的選擇之外,損失函數(shù)的形狀以及對優(yōu)化器的選擇還決定了收斂速度和是否可以收斂到目標最小值。

錯誤的權(quán)重學(xué)習(xí)率有什么問題?

當(dāng)我們的輸入是圖像時,低設(shè)置的學(xué)習(xí)率會導(dǎo)致如下圖所示的噪聲特征。平滑、干凈和多樣化的特征是良好調(diào)優(yōu)學(xué)習(xí)率的結(jié)果。是否適當(dāng)?shù)卦O(shè)置學(xué)習(xí)率決定了機器學(xué)習(xí)模型的預(yù)測質(zhì)量:要么是進行良好的訓(xùn)練,要么是不收斂的網(wǎng)絡(luò)。

繪制神經(jīng)網(wǎng)絡(luò)第一層產(chǎn)生的特征:不正確(左)和正確(右)設(shè)置學(xué)習(xí)率的情況

我們可以事先計算出最佳學(xué)習(xí)率嗎?

通過理論推導(dǎo),不可能計算出導(dǎo)致最準確的預(yù)測的最佳學(xué)習(xí)率。為了發(fā)現(xiàn)給定數(shù)據(jù)集上給定模型的最佳學(xué)習(xí)率值,必須進行觀察和體驗。

我們?nèi)绾卧O(shè)置學(xué)習(xí)率?

以下是配置η值所需了解的所有內(nèi)容。

使用固定學(xué)習(xí)率:

您確定將在所有學(xué)習(xí)過程中使用的學(xué)習(xí)率的值。這里有兩種可能的方法。第一個很簡單的。它由實踐中常用的常用值組成,即0.1或0.01。第二種方法,您必須尋找適合您的特定問題和神經(jīng)網(wǎng)絡(luò)架構(gòu)的正確學(xué)習(xí)率。如前所述,學(xué)習(xí)率的典型值范圍是10 E-6和1。因此,你粗略地在這個范圍內(nèi)搜索10的各種階數(shù),為你的學(xué)習(xí)率找到一個最優(yōu)的子范圍。然后,您可以在粗略搜索所找到的子范圍內(nèi)以較小的增量細化搜索。你在實踐中可能看到的一種啟發(fā)式方法是在訓(xùn)練時觀察損失,以找到最佳的學(xué)習(xí)率。

學(xué)習(xí)率時間schedule的使用:

與固定學(xué)習(xí)率不同,此替代方法要求根據(jù)schedule在訓(xùn)練epochs內(nèi)改變η值。在這里,您將從較高的學(xué)習(xí)率開始,然后在模型訓(xùn)練期間逐漸降低學(xué)習(xí)率。在學(xué)習(xí)過程的開始,權(quán)重是隨機初始化的,遠遠沒有優(yōu)化,因此較大的更改就足夠了。隨著學(xué)習(xí)過程的結(jié)束,需要更完善的權(quán)重更新。通常每隔幾個epochs減少一次學(xué)習(xí)Learning step。學(xué)習(xí)率也可以在固定數(shù)量的訓(xùn)練epochs內(nèi)衰減,然后對于其余的訓(xùn)練epochs保持較小的恒定值。

常見的兩種方案。第一種方案,對于固定數(shù)量的訓(xùn)練epochs,每次損失平穩(wěn)(即停滯)時,學(xué)習(xí)率都會降低。第二種方案,降低學(xué)習(xí)率,直到達到接近0的較小值為止。三種衰減學(xué)習(xí)率的方法,即階躍衰減、指數(shù)衰減和1/t衰減。

在SGD中添加Momentum:

它是在經(jīng)典的SGD方程中加入一項:

這個附加項考慮了由于Vt-1而帶來的權(quán)重更新的歷史,Vt-1是過去梯度的指數(shù)移動平均值的累積。這就平滑了SGD的進程,減少了SGD的振蕩,從而加速了收斂。然而,這需要設(shè)置新的超參數(shù)γ。除了學(xué)習(xí)率η的挑戰(zhàn)性調(diào)整外,還必須考慮動量γ的選擇。γ設(shè)置為大于0且小于1的值。其常用值為0.5、0.9和0.99。

自適應(yīng)學(xué)習(xí)率的使用:

與上述方法不同,不需要手動調(diào)整學(xué)習(xí)率。根據(jù)權(quán)重的重要性,優(yōu)化器可以調(diào)整η來執(zhí)行更大或更小的更新。此外,對于模型中的每個權(quán)重值,都確保了一個學(xué)習(xí)率。Adagrad,Adadelta,RMSProp和Adam是自適應(yīng)梯度下降變體的例子。您應(yīng)該知道,沒有哪個算法可以最好地解決所有問題。

學(xué)習(xí)率配置主要方法概述

學(xué)習(xí)率的實際經(jīng)驗法則是什么?

學(xué)習(xí)率是機器學(xué)習(xí)模型所依賴的最重要的超參數(shù)。因此,如果您不得不設(shè)置一個且只有一個超參數(shù),則必須優(yōu)先考慮學(xué)習(xí)率。

機器學(xué)習(xí)模型學(xué)習(xí)率的調(diào)整非常耗時。因此,沒有必要執(zhí)行網(wǎng)格搜索來找到最佳學(xué)習(xí)率。為了得到一個成功的模型,找到一個足夠大的學(xué)習(xí)率使梯度下降法有效收斂就足夠了,但又不能大到永遠不收斂。

如果您選擇一種非自適應(yīng)學(xué)習(xí)率設(shè)置方法,則應(yīng)注意該模型將具有數(shù)百個權(quán)重(或者數(shù)千個權(quán)重),每個權(quán)重都有自己的損失曲線。因此,您必須設(shè)置一個適合所有的學(xué)習(xí)率。此外,損失函數(shù)在實際中往往不是凸的,而是清晰的u形。他們往往有更復(fù)雜的非凸形狀局部最小值。

自適應(yīng)方法極大地簡化了具有挑戰(zhàn)性的學(xué)習(xí)率配置任務(wù),這使得它們變得更加常用。此外,它的收斂速度通常更快,并且優(yōu)于通過非自適應(yīng)方法不正確地調(diào)整其學(xué)習(xí)率的模型。

SGD with Momentum,RMSProp和Adam是最常用的算法,因為它們對多種神經(jīng)網(wǎng)絡(luò)架構(gòu)和問題類型具有魯棒性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    人工智能與機器學(xué)習(xí)在這些行業(yè)的深度應(yīng)用

    自人工智能和機器學(xué)習(xí)問世以來,多個在線領(lǐng)域的數(shù)字化格局迎來了翻天覆地的變化。這些技術(shù)從誕生之初就為企業(yè)賦予了競爭優(yōu)勢,而在線行業(yè)正是受其影響最為顯著的領(lǐng)域。人工智能(AI)與機器學(xué)習(xí)
    的頭像 發(fā)表于 02-04 14:44 ?484次閱讀

    強化學(xué)習(xí)會讓自動駕駛模型學(xué)習(xí)更快嗎?

    是一種讓機器通過“試錯”學(xué)會決策的辦法。與監(jiān)督學(xué)習(xí)不同,監(jiān)督學(xué)習(xí)是有人提供示范答案,讓模型去模仿;而強化學(xué)習(xí)不會把每一步的“正確答案”都告訴你,而是把環(huán)境、動作和結(jié)果連起來,讓
    的頭像 發(fā)表于 01-31 09:34 ?646次閱讀
    強化<b class='flag-5'>學(xué)習(xí)</b>會讓自動駕駛模型<b class='flag-5'>學(xué)習(xí)</b>更快嗎?

    學(xué)習(xí)電子電路中常見的問題

    電子電路作為現(xiàn)代科技的基礎(chǔ),其學(xué)習(xí)過程中常會遇到各種理論和實踐問題。無論是初學(xué)者還是有一定經(jīng)驗的工程師,都可能面臨電路設(shè)計、元器件選型、信號處理等方面的困惑。本文將系統(tǒng)梳理電子電路學(xué)習(xí)常見的典型
    的頭像 發(fā)表于 01-20 07:38 ?226次閱讀

    爬壁機器人磁鐵的一些常見問題

    爬壁機器人近幾年比較火,它是一類能夠在垂直墻面、天花板、傾斜表面上移動和作業(yè)的特種機器人,今天我們不聊其它,只聊下關(guān)于磁吸附應(yīng)用中的磁鐵,以下是小編整理的關(guān)于爬壁機器人中磁鐵的一些常見問題
    的頭像 發(fā)表于 01-09 10:06 ?271次閱讀
    爬壁<b class='flag-5'>機器</b>人磁鐵的一些<b class='flag-5'>常見問題</b>

    機器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個常見錯誤與局限性

    無論你是剛?cè)腴T還是已經(jīng)從事人工智能模型相關(guān)工作一段時間,機器學(xué)習(xí)和深度學(xué)習(xí)中都存在一些我們需要時刻關(guān)注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發(fā)諸多麻煩!只要我們密切關(guān)注
    的頭像 發(fā)表于 01-07 15:37 ?194次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個<b class='flag-5'>常見</b>錯誤與局限性

    如何深度學(xué)習(xí)機器視覺的應(yīng)用場景

    深度學(xué)習(xí)視覺應(yīng)用場景大全 工業(yè)制造領(lǐng)域 復(fù)雜缺陷檢測:處理傳統(tǒng)算法難以描述的非標準化缺陷模式 非標產(chǎn)品分類:對形狀、顏色、紋理多變的產(chǎn)品進行智能分類 外觀質(zhì)量評估:基于學(xué)習(xí)的外觀質(zhì)量標準判定 精密
    的頭像 發(fā)表于 11-27 10:19 ?223次閱讀

    如何在機器視覺中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

    人士而言往往難以理解,人們也常常誤以為需要扎實的編程技能才能真正掌握并合理使用這項技術(shù)。事實上,這種印象忽視了該技術(shù)為機器視覺(乃至生產(chǎn)自動化)帶來的潛力,因為深度學(xué)習(xí)并非只屬于計算機科學(xué)家或程序員。 從頭開始:什么
    的頭像 發(fā)表于 09-10 17:38 ?902次閱讀
    如何在<b class='flag-5'>機器</b>視覺中部署深度<b class='flag-5'>學(xué)習(xí)</b>神經(jīng)網(wǎng)絡(luò)

    ZYNQ UltraScalePlus RFSOC QSPI Flash固化常見問題說明

    璞致 ZYNQ UltraScalePlus RFSOC QSPI Flash 固化常見問題說明
    發(fā)表于 08-08 15:49 ?0次下載

    貿(mào)澤電子2025邊緣AI與機器學(xué)習(xí)技術(shù)創(chuàng)新論壇回顧(上)

    2025年,隨著人工智能技術(shù)的快速發(fā)展,邊緣AI與機器學(xué)習(xí)市場迎來飛速增長,據(jù)Gartner預(yù)計,2025年至2030年,邊緣AI市場將保持23%的復(fù)合年增長。
    的頭像 發(fā)表于 07-21 11:08 ?1180次閱讀
    貿(mào)澤電子2025邊緣AI與<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>技術(shù)創(chuàng)新論壇回顧(上)

    FPGA在機器學(xué)習(xí)中的具體應(yīng)用

    隨著機器學(xué)習(xí)和人工智能技術(shù)的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無法滿足高效處理大規(guī)模數(shù)據(jù)和復(fù)雜模型的需求。FPGA(現(xiàn)場可編程門陣列)作為一種靈活且高效的硬件加速平臺
    的頭像 發(fā)表于 07-16 15:34 ?2900次閱讀

    PCBA代工避坑指南:常見問題+解決方案全解析

    一站式PCBA加工廠家今天為大家講講PCBA代工代購元器件常見問題有哪些?PCBA代工代購元器件常見問題及解決方案。隨著科技的不斷發(fā)展和市場需求的變化,越來越多的企業(yè)選擇通過外包方式進行PCBA生產(chǎn)
    的頭像 發(fā)表于 07-09 09:38 ?763次閱讀

    使用MATLAB進行無監(jiān)督學(xué)習(xí)

    無監(jiān)督學(xué)習(xí)是一種根據(jù)未標注數(shù)據(jù)進行推斷的機器學(xué)習(xí)方法。無監(jiān)督學(xué)習(xí)旨在識別數(shù)據(jù)中隱藏的模式和關(guān)系,無需任何監(jiān)督或關(guān)于結(jié)果的先驗知識。
    的頭像 發(fā)表于 05-16 14:48 ?1450次閱讀
    使用MATLAB進行無監(jiān)督<b class='flag-5'>學(xué)習(xí)</b>

    deepin 25系統(tǒng)安裝常見問題

    隨著 deepin 25 系列版本的發(fā)布,我們特別推出 deepin Q&A 常見問題指南,旨在幫助您輕松應(yīng)對安裝、升級及使用過程中可能遇到的常見問題。
    的頭像 發(fā)表于 04-14 14:08 ?5679次閱讀
    deepin 25系統(tǒng)安裝<b class='flag-5'>常見問題</b>

    十大鮮為人知卻功能強大的機器學(xué)習(xí)模型

    本文轉(zhuǎn)自:QuantML當(dāng)我們談?wù)?b class='flag-5'>機器學(xué)習(xí)時,線性回歸、決策樹和神經(jīng)網(wǎng)絡(luò)這些常見的算法往往占據(jù)了主導(dǎo)地位。然而,除了這些眾所周知的模型之外,還存在一些鮮為人知但功能強大的算法,它們能夠以驚人的效率
    的頭像 發(fā)表于 04-02 14:10 ?1095次閱讀
    十大鮮為人知卻功能強大的<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>模型

    請問STM32部署機器學(xué)習(xí)算法硬件至少要使用哪個系列的芯片?

    STM32部署機器學(xué)習(xí)算法硬件至少要使用哪個系列的芯片?
    發(fā)表于 03-13 07:34