91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepMind終于公開了它聯(lián)合UCL的“高級(jí)深度強(qiáng)化學(xué)習(xí)課程”!

DPVg_AI_era ? 來(lái)源:未知 ? 作者:李倩 ? 2018-11-26 09:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一直走在深度學(xué)習(xí)研究最前沿的DeepMind,終于公開了它聯(lián)合UCL的“高級(jí)深度強(qiáng)化學(xué)習(xí)課程”!18節(jié)課24小時(shí),一天看完Deep RL及其2018最新進(jìn)展。

今天,DeepMind 官推貼出一則告示,將 DeepMind 研究人員今年在 UCL 教授的深度強(qiáng)化學(xué)習(xí)課程“Advanced Deep Learning and Reinforcement Learning” 資源全部公開。

一共18節(jié)課,走過路過不能錯(cuò)過。

深度強(qiáng)化學(xué)習(xí)是人工智能領(lǐng)域的一個(gè)新的研究熱點(diǎn),從AlphaGo開始,DeepMind便在這一領(lǐng)域獨(dú)占鰲頭。

深度強(qiáng)化學(xué)習(xí)以一種通用的形式將深度學(xué)習(xí)的感知能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,并能夠通過端對(duì)端的學(xué)習(xí)方式實(shí)現(xiàn)從原始輸入到輸出的直接控制。自提出以來(lái), 在許多需要感知高維度原始輸入數(shù)據(jù)和決策控制的任務(wù)中都取得了實(shí)質(zhì)性的突破。

2018年,南京大學(xué)的AI單機(jī)訓(xùn)練一天,擊敗《星際爭(zhēng)霸》最高難度內(nèi)置Bot,OpenAI 打 DOTA2 超越了Top 1%的人類玩家,深度強(qiáng)化學(xué)習(xí)不斷在進(jìn)展。

結(jié)合算法的發(fā)展和實(shí)際應(yīng)用場(chǎng)景,DeepMind在UCL教授的這門課程內(nèi)容也是最前沿的。

還有關(guān)鍵一點(diǎn),那就是視頻的質(zhì)量和清晰度超贊?。ㄐ枰茖W(xué)上網(wǎng))。

DeepMind親授“高級(jí)深度強(qiáng)化學(xué)習(xí)課程”

這門課程是DeepMind與倫敦大學(xué)學(xué)院(UCL)的合作項(xiàng)目,由于DeepMind的研究人員去UCL授課,內(nèi)容由兩部分組成,一是深度學(xué)習(xí)(利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器學(xué)習(xí)),二是強(qiáng)化學(xué)習(xí)(利用強(qiáng)化學(xué)習(xí)進(jìn)行預(yù)測(cè)和控制),最后兩條線結(jié)合在一起,也就成了DeepMind的拿手好戲——深度強(qiáng)化學(xué)習(xí)。

關(guān)于深度強(qiáng)化學(xué)習(xí),DeepMind一直在努力,比如最新發(fā)表的研究讓 AI 行動(dòng)符合人類意圖。

這門課也是結(jié)合案例講解的,值得一提,最后一課“第18節(jié):深度強(qiáng)化學(xué)習(xí)的經(jīng)典案例”,講師是 David Silver,這位AlphaGo背后的英雄以及AlphaZero靈魂人物,他講的課程無(wú)論如何也應(yīng)該聽一聽。

David Silver在UCL講課的視頻截圖

在深度學(xué)習(xí)部分,課程簡(jiǎn)要介紹了神經(jīng)網(wǎng)絡(luò)和使用TensorFlow的監(jiān)督學(xué)習(xí),然后講授卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、端到端并基于能量的學(xué)習(xí)、優(yōu)化方法、無(wú)監(jiān)督學(xué)習(xí)以及注意力和記憶。討論的應(yīng)用領(lǐng)域包括對(duì)象識(shí)別和自然語(yǔ)言處理。

強(qiáng)化學(xué)習(xí)部分將涵蓋馬爾科夫決策過程、動(dòng)態(tài)規(guī)劃、無(wú)模型預(yù)測(cè)和控制、價(jià)值函數(shù)逼近、策略梯度方法、學(xué)習(xí)與規(guī)劃的集成以及探索/開發(fā)困境。討論的可能應(yīng)用包括學(xué)習(xí)玩經(jīng)典的棋盤游戲和電子游戲。

總體來(lái)說(shuō),這是一門偏向?qū)嵺`的課程,需要PyTorch和編碼基礎(chǔ),學(xué)完以后,學(xué)生能夠在TensorFlow上熟練實(shí)現(xiàn)深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)以及深度強(qiáng)化學(xué)習(xí)相關(guān)的一系列算法。

因此,除了深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí),深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練以及優(yōu)化方法,這門課更加注重如何在TensorFlow中實(shí)現(xiàn)深度學(xué)習(xí)算法,以及如何在復(fù)雜動(dòng)態(tài)環(huán)境中應(yīng)用強(qiáng)化學(xué)習(xí)。

18節(jié)課一共24小時(shí),一天看完深度強(qiáng)化學(xué)習(xí)進(jìn)展

課程團(tuán)隊(duì)

深度學(xué)習(xí)1:介紹基于機(jī)器學(xué)習(xí)的AI

深度學(xué)習(xí)2:介紹TensorFlow

深度學(xué)習(xí)3:神經(jīng)網(wǎng)絡(luò)基礎(chǔ)

強(qiáng)化學(xué)習(xí)1:強(qiáng)化學(xué)習(xí)簡(jiǎn)介

強(qiáng)化學(xué)習(xí)2:開發(fā)和利用

強(qiáng)化學(xué)習(xí)3:馬爾科夫決策過程和動(dòng)態(tài)編程

強(qiáng)化學(xué)習(xí)4:無(wú)模型的預(yù)測(cè)和控制

深度學(xué)習(xí)4:圖像識(shí)別、端到端學(xué)習(xí)和Embeddings之外

強(qiáng)化學(xué)習(xí)5:函數(shù)逼近和深度強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)6:策略梯度和Actor Critics

深度學(xué)習(xí)5:機(jī)器學(xué)習(xí)的優(yōu)化方法

強(qiáng)化學(xué)習(xí)7:規(guī)劃和模型

深度學(xué)習(xí)6:NLP的深度學(xué)習(xí)

強(qiáng)化學(xué)習(xí)8:深度強(qiáng)化學(xué)習(xí)中的高級(jí)話題

深度學(xué)習(xí)7:深度學(xué)習(xí)中的注意力和記憶

強(qiáng)化學(xué)習(xí)9:深度RL智能體簡(jiǎn)史

深度學(xué)習(xí)8:無(wú)監(jiān)督學(xué)習(xí)和生成式模型

強(qiáng)化學(xué)習(xí)10:經(jīng)典游戲的案例學(xué)習(xí)

18節(jié)課一共24小時(shí),一天看完高級(jí)深度強(qiáng)化學(xué)習(xí)

下面我們介紹第14節(jié)“深度強(qiáng)化學(xué)習(xí)中的高級(jí)話題”。講課人是DeepMind研究科學(xué)家Hado Van Hasselt。Hado Van Hasselt的研究興趣包括人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí),尤其是強(qiáng)化學(xué)習(xí)。加入DeepMind之前,他在阿爾伯塔大學(xué)與Richard Sutton教授合作過。

Hado Van Hasselt是許多前沿論文的共同作者,包括Double Q-learning、DuelingDQN、rainbow DQN、強(qiáng)化學(xué)習(xí)的Ensemble算法等。

在這一節(jié),Hasselt講了深度強(qiáng)化學(xué)習(xí)中一些積極的研究主題,這些主題很好地突出了這一領(lǐng)域中正在取得的進(jìn)展。

前面已經(jīng)介紹過的強(qiáng)化學(xué)習(xí)研究主題包括:學(xué)習(xí)在bandit問題中做決策;序列決策問題;model-free的預(yù)測(cè)和控制;deep RL中的函數(shù)逼近;策略梯度和actor-critic方法;以及從模型中學(xué)習(xí)。

而高級(jí)話題,是這些。

最主要的問題是:如何將未來(lái)的獎(jiǎng)勵(lì)最大化?

這個(gè)大問題可以分解成一些子問題:

學(xué)習(xí)什么?(預(yù)測(cè)、模型、策略……)

如何學(xué)習(xí)這些?(TD、規(guī)劃……)

如何表示這些學(xué)習(xí)到的知識(shí)?(深度網(wǎng)絡(luò)、sample buffers,……)

如何利用這些學(xué)習(xí)到的知識(shí)?

其中一些活躍研究主題包括:

在完全序列,函數(shù)逼近設(shè)置中的“探索”(Exploration)

利用延遲獎(jiǎng)勵(lì)的credit assignment

局部規(guī)劃或不精確的模型

樣本效率模型

Appropriate generalization

構(gòu)建有用、通用且信息豐富的agent state

Case study:rainbow DQN(Hasselt et al. 2018)

在這個(gè)研究中,Hasselt等人提出rainbow DQN,整合了DQN算法的6種變體,并證明它們很大程度上是互補(bǔ)。DQN的基本想法是利用target networks和experience replay。

這節(jié)課接下來(lái)的大部分內(nèi)容圍繞這個(gè)case,介紹了最新的技術(shù)和思想,請(qǐng)觀看視頻獲得更詳細(xì)的解釋。

理解了分布(distribution),或許能對(duì)任務(wù)有所幫助。這是分布式強(qiáng)化學(xué)習(xí)的想法。分布式強(qiáng)化學(xué)習(xí)也意味著representation(例如深度神經(jīng)網(wǎng)絡(luò))被迫要學(xué)習(xí)更多。

這可以加快學(xué)習(xí):因?yàn)閷W(xué)習(xí)更多意味著更少的樣本。

以下是分布式強(qiáng)化學(xué)習(xí)的具體案例。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:DeepMind高贊課程:24小時(shí)看完深度強(qiáng)化學(xué)習(xí)最新進(jìn)展(視頻)

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    自動(dòng)駕駛中常提的離線強(qiáng)化學(xué)習(xí)是什么?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在之前談及自動(dòng)駕駛模型學(xué)習(xí)時(shí),詳細(xì)聊過強(qiáng)化學(xué)習(xí)的作用,由于強(qiáng)化學(xué)習(xí)能讓大模型通過交互學(xué)到策略,不需要固定的規(guī)則,從而給自動(dòng)駕駛的落地創(chuàng)造了更多可能。 強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 02-07 09:21 ?224次閱讀
    自動(dòng)駕駛中常提的離線<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>是什么?

    強(qiáng)化學(xué)習(xí)會(huì)讓自動(dòng)駕駛模型學(xué)習(xí)更快嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛大模型訓(xùn)練時(shí),有的技術(shù)方案會(huì)采用模仿學(xué)習(xí),而有些會(huì)采用強(qiáng)化學(xué)習(xí)。同樣作為大模型的訓(xùn)練方式,強(qiáng)化學(xué)習(xí)有何不同?又有什么特點(diǎn)呢? 什么是強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 01-31 09:34 ?668次閱讀
    <b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>會(huì)讓自動(dòng)駕駛模型<b class='flag-5'>學(xué)習(xí)</b>更快嗎?

    多智能體強(qiáng)化學(xué)習(xí)(MARL)核心概念與算法概覽

    訓(xùn)練單個(gè)RL智能體的過程非常簡(jiǎn)單,那么我們現(xiàn)在換一個(gè)場(chǎng)景,同時(shí)訓(xùn)練五個(gè)智能體,而且每個(gè)都有自己的目標(biāo)、只能看到部分信息,還能互相幫忙。這就是多智能體強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 01-21 16:21 ?205次閱讀
    多智能體<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>(MARL)核心概念與算法概覽

    上汽別克至境E7首發(fā)搭載Momenta R6強(qiáng)化學(xué)習(xí)大模型

    別克至境家族迎來(lái)新成員——大五座智能SUV別克至境E7首發(fā)。新車將搭載Momenta R6強(qiáng)化學(xué)習(xí)大模型,帶來(lái)全場(chǎng)景的智能出行體驗(yàn)。
    的頭像 發(fā)表于 01-12 16:23 ?347次閱讀

    【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實(shí)戰(zhàn)課(11大系列課程,共5000+分鐘)

    深度學(xué)習(xí)技能的工程師起薪18K,3-5年經(jīng)驗(yàn)可達(dá)35-50K ? 行業(yè)分布:電子制造(38%)、汽車零部件(22%)、半導(dǎo)體(19%)、醫(yī)療器械(11%)為主要就業(yè)領(lǐng)域 本次團(tuán)購(gòu)?fù)ㄟ^整合11大系列課程
    發(fā)表于 12-04 09:28

    【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實(shí)戰(zhàn)課程(11大系列課程,共5000+分鐘)

    深度學(xué)習(xí)技能的工程師起薪18K,3-5年經(jīng)驗(yàn)可達(dá)35-50K ? 行業(yè)分布:電子制造(38%)、汽車零部件(22%)、半導(dǎo)體(19%)、醫(yī)療器械(11%)為主要就業(yè)領(lǐng)域 本次團(tuán)購(gòu)?fù)ㄟ^整合11大系列課程
    發(fā)表于 12-03 13:50

    今日看點(diǎn):智元推出真機(jī)強(qiáng)化學(xué)習(xí);美國(guó)軟件公司SAS退出中國(guó)市場(chǎng)

    智元推出真機(jī)強(qiáng)化學(xué)習(xí),機(jī)器人訓(xùn)練周期從“數(shù)周”減至“數(shù)十分鐘” ? 近日,智元機(jī)器人宣布其研發(fā)的真機(jī)強(qiáng)化學(xué)習(xí)技術(shù),已在與龍旗科技合作的驗(yàn)證產(chǎn)線中成功落地。據(jù)介紹,此次落地的真機(jī)強(qiáng)化學(xué)習(xí)方案,機(jī)器人
    發(fā)表于 11-05 09:44 ?1111次閱讀

    自動(dòng)駕駛中常提的“強(qiáng)化學(xué)習(xí)”是個(gè)啥?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛時(shí),有些方案中會(huì)提到“強(qiáng)化學(xué)習(xí)(Reinforcement Learning,簡(jiǎn)稱RL)”,強(qiáng)化學(xué)習(xí)是一類讓機(jī)器通過試錯(cuò)來(lái)學(xué)會(huì)做決策的技術(shù)。簡(jiǎn)單理解
    的頭像 發(fā)表于 10-23 09:00 ?709次閱讀
    自動(dòng)駕駛中常提的“<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>”是個(gè)啥?

    上海 10月19-20日《高級(jí)PCB-EMC設(shè)計(jì)》公開課報(bào)名中!

    課程名稱:《高級(jí)PCB-EMC設(shè)計(jì)》講師:鄭老師時(shí)間地點(diǎn):上海10月19-20日主辦單位:賽盛技術(shù)課程背景隨著電子信息的快速發(fā)展,產(chǎn)品EMC要求越來(lái)越高。經(jīng)市場(chǎng)調(diào)研,70%的企業(yè)并沒有專職的EMC
    的頭像 發(fā)表于 10-09 18:02 ?396次閱讀
    上海 10月19-20日《<b class='flag-5'>高級(jí)</b>PCB-EMC設(shè)計(jì)》<b class='flag-5'>公開</b>課報(bào)名中!

    NVIDIA Isaac Lab可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用指南

    Lab 是一個(gè)適用于機(jī)器人學(xué)習(xí)的開源模塊化框架,其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,Isaac Lab 同時(shí)支持模仿學(xué)習(xí)(模仿人類)和強(qiáng)化學(xué)習(xí)(在嘗試和錯(cuò)誤中進(jìn)行學(xué)習(xí)),為所有機(jī)器
    的頭像 發(fā)表于 07-14 15:29 ?2393次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>腳本使用指南

    思必馳與上海交大聯(lián)合實(shí)驗(yàn)室兩篇論文入選ICML 2025

    會(huì)議。會(huì)議涵蓋了機(jī)器學(xué)習(xí)的各個(gè)前沿方向,包括但不限于深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算機(jī)視覺、貝葉斯方法及優(yōu)化算法等。
    的頭像 發(fā)表于 06-16 09:23 ?1504次閱讀
    思必馳與上海交大<b class='flag-5'>聯(lián)合</b>實(shí)驗(yàn)室兩篇論文入選ICML 2025

    瑞之辰申請(qǐng)強(qiáng)化成型底座金屬封裝傳感器專利

    摘要顯示,本發(fā)明公開了一種具有強(qiáng)化成型底座的金屬封裝傳感器,傳感器包括頂蓋、膜片及底座;底座的頂面設(shè)有向內(nèi)凹陷形成的喇叭狀的底座開口,頂蓋朝向膜片的一側(cè)面設(shè)有向內(nèi)
    的頭像 發(fā)表于 05-28 15:07 ?891次閱讀
    瑞之辰申請(qǐng)<b class='flag-5'>強(qiáng)化</b>成型底座金屬封裝傳感器專利

    18個(gè)常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    本來(lái)轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級(jí)技術(shù)(如PPO、A3C、PlaNet等)的實(shí)現(xiàn)原理與編碼過程,旨在通過理論結(jié)合代碼的方式,構(gòu)建對(duì)強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?1630次閱讀
    18個(gè)常用的<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法整理:從基礎(chǔ)方法到<b class='flag-5'>高級(jí)</b>模型的理論技術(shù)與代碼實(shí)現(xiàn)

    深度解讀英偉達(dá)Newton機(jī)器人平臺(tái):技術(shù)革新與跨界生態(tài)構(gòu)建

    :高性能物理引擎與AI融合 Newton是英偉達(dá)聯(lián)合Google DeepMind和迪士尼研究院共同開發(fā)的 開源物理引擎 ,專為機(jī)器人學(xué)習(xí)與仿真優(yōu)化設(shè)計(jì)。其核心技術(shù)特點(diǎn)包括: 多
    的頭像 發(fā)表于 03-20 15:15 ?2879次閱讀
    <b class='flag-5'>深度</b>解讀英偉達(dá)Newton機(jī)器人平臺(tái):技術(shù)革新與跨界生態(tài)構(gòu)建

    深圳 4月18-19日《高級(jí)PCB-EMC設(shè)計(jì)》公開課報(bào)名中!

    課程名稱:《高級(jí)PCB-EMC設(shè)計(jì)》講師:鄭老師時(shí)間地點(diǎn):深圳4月18-19日主辦單位:賽盛技術(shù)課程背景隨著電子信息的快速發(fā)展,產(chǎn)品EMC要求越來(lái)越高。經(jīng)市場(chǎng)調(diào)研,70%的企業(yè)并沒有專職的EMC研發(fā)
    的頭像 發(fā)表于 03-17 16:50 ?793次閱讀
    深圳 4月18-19日《<b class='flag-5'>高級(jí)</b>PCB-EMC設(shè)計(jì)》<b class='flag-5'>公開</b>課報(bào)名中!