自偷自偷二区自拍偷拍第1页,亚洲日韩香蕉免费成人a在线,欧洲AV亚洲AV总网站

近日，谷歌DeepMind強化學習研究團隊負責人、AlphaGo項目首席研究員Dave Silver在Deep Learning Indaba活動的主題演講中歸納出了強化學習中要注意的10大要點。一起來看看，也許能少走點彎路。

近日，在南非斯泰倫博斯舉行的Deep Learning Indaba活動上，谷歌DeepMind強化學習研究團隊負責人、AlphaGo項目首席研究員Dave Silver在主題演講中歸納出強化學習中要注意的10大要點。

活動主辦方將Dave Silver演講的PPT截圖和文字要點發(fā)在了推特上，引發(fā)了廣泛討論。

Silver的演講中提出的強化學習10大要點涵蓋涉及算法評估、狀態(tài)控制、建模函數(shù)等方面的心得和建議，非常值得開發(fā)者和機器學習愛好者參考學習。一起看看他是怎么說的吧！

1、在評估中產(chǎn)生進步

客觀、量化的估計會產(chǎn)生進步，對評估尺度的選擇會決定進步的方向。這可能是項目推進過程中做出的最重要的決定。

目標驅(qū)動型研究：確認評估標準與最終目標密切相關。避免主觀評估

假設驅(qū)動型研究：提出假設，在寬泛的條件下驗證假設，與相似結(jié)果對比，而不是與最先進的結(jié)果對比。重要的是對結(jié)果的理解，而不是追求排名。

2、算法的可擴展性決定是否成功

算法的可擴展性是指其性能隨資源的梯度變化。這里的資源可能是計算、存儲和數(shù)據(jù)。算法的可擴展性決定了能否項目能否成功，它幾乎永遠比算法的起點重要。最終，好的算法總是無限資源條件下的最優(yōu)解決方案。

3、穩(wěn)定算法的通用性

算法通用性是指算法在不同深度學習環(huán)境下的表現(xiàn)。應避免對當前任務的過擬合。積極尋求可以適用于未來未知環(huán)境下的算法。

結(jié)論：要廣泛驗證，建立現(xiàn)實的機器學習環(huán)境。

4、信任智能體的經(jīng)驗

經(jīng)驗（包括觀察、動作、獎勵）是指深度學習的數(shù)據(jù)。信任這些經(jīng)驗，將其作為唯一知識來源。盡管這些經(jīng)驗看上去不可學習，但最終長期來看，經(jīng)驗終將取得成功。

5、狀態(tài)是主觀的

智能體應該基于經(jīng)驗建立自身的狀態(tài)，智能體的狀態(tài)是關于其先前狀態(tài)和新觀察數(shù)據(jù)的函數(shù)。任何時候不要定義某一環(huán)境下的“真實”狀態(tài)。

6、控制數(shù)據(jù)流

智能體處于大量數(shù)據(jù)流傳感器環(huán)境中，智能體的行為會對數(shù)據(jù)流造成影響。

控制特征——控制數(shù)據(jù)流——控制未來——實現(xiàn)任何回報的最大化。

7、價值函數(shù)可以對世界建模

價值函數(shù)是對未來的高效歸納和緩存。多關注固定時間段的查找，而非指數(shù)級的前瞻。可以獨立計算和學習。利用多價值函數(shù)可以在不同時間范圍內(nèi)，對世界各個方面進行高效建模。

應避免使用原始的時間步長對世界進行建模。

8、從想象的經(jīng)驗中進行學習

想象接下來會發(fā)生什么，從想象的經(jīng)驗中進行學習，同時關注在當前時刻的值函數(shù)估計。

9、加強函數(shù)逼近器

差異化網(wǎng)絡架構(gòu)是一種有力工具，可以用來:以豐富的方式表示狀態(tài)，實現(xiàn)差異化存儲、差異化規(guī)劃、層級控制。

將算法的復雜性融入網(wǎng)絡架構(gòu)，可以降低算法的復雜度，增加網(wǎng)絡架構(gòu)的可表達性。

10、要學習“如何學習”

人工智能的發(fā)展史呈現(xiàn)出一條清晰的發(fā)展脈絡。

第一代：“美好的”老式人工智能。手動控制預測，不學習任何內(nèi)容。

第二代：淺度學習。手動控制特征，學習預測。

第三代：深度學習。手動控制算法（優(yōu)化器、目標、架構(gòu)），學習特征和端對端預測。

第四代：Meta學習。無手動環(huán)節(jié)，學習算法、特征和端對端預測。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴