電子發(fā)燒友網(wǎng)>人工智能>谷歌和DeepMind研究人員合作提出新的強(qiáng)化學(xué)習(xí)方法Dreamer 可利用世界模型實(shí)現(xiàn)高效的行為學(xué)習(xí)

谷歌和DeepMind研究人員合作提出新的強(qiáng)化學(xué)習(xí)方法Dreamer 可利用世界模型實(shí)現(xiàn)高效的行為學(xué)習(xí)

近年來隨著強(qiáng)化學(xué)習(xí)的發(fā)展，使得智能體選擇恰當(dāng)行為以實(shí)現(xiàn)目標(biāo)的能力得到迅速地提升。目前研究領(lǐng)域主要使用兩種方法：一種是無模型（model－free）的強(qiáng)化學(xué)習(xí)方法，通過試錯(cuò)的方式來學(xué)習(xí)預(yù)測成功的行為，其中著名的方法包括用于完成雅達(dá)利游戲的DeepMind的DQN方法和在星際爭霸二中與世界冠軍同臺(tái)競技的AlphaStar，但這類方法需要與環(huán)境進(jìn)行大量的交互限制了其在真實(shí)場景中的應(yīng)用。

而基于模型（model－based）的強(qiáng)化學(xué)習(xí)方法則額外學(xué)習(xí)一個(gè)簡化的環(huán)境模型，這一環(huán)境模型使得主體可以預(yù)測潛在行為序列的輸出，使得它可以通過假設(shè)的場景來在新環(huán)境中作出明智的決策，減少了實(shí)現(xiàn)目標(biāo)所需的試錯(cuò)。先前學(xué)習(xí)精確的世界模型并將其充分應(yīng)用于行為學(xué)習(xí)中還面臨一系列挑戰(zhàn)，但隨著近來像深度規(guī)劃網(wǎng)絡(luò)（DeepPlanningNetwork， PlaNet）的研究出現(xiàn)，極大地拓展了從圖像中學(xué)習(xí)出精確世界模型的邊界，但基于模型的方法卻依然受到規(guī)劃（planning）機(jī)制龐大計(jì)算消耗的約束，限制了其在解決復(fù)雜任務(wù)上的應(yīng)用。

為了解決這些問題，來自谷歌和DeepMind的研究人員合作提出了一種基于圖像學(xué)習(xí)出世界模型（world model）的強(qiáng)化學(xué)習(xí)方法Dreamer，并在此基礎(chǔ)上學(xué)習(xí)出有遠(yuǎn)見的行為。Dreamer基于模型預(yù)測的反向傳播來利用世界模型實(shí)現(xiàn)高效的行為學(xué)習(xí)。通過從原始圖像輸入中計(jì)算出緊致的模型狀態(tài)，這種方法可以使得主體在單個(gè)GPU上并行地從上千個(gè)預(yù)測序列中進(jìn)行高效的學(xué)習(xí)。通過20個(gè)基于原始圖像輸入的連續(xù)控制基準(zhǔn)任務(wù)上測評(píng)表明，Dreamer在性能、數(shù)據(jù)效率和計(jì)算時(shí)間上都達(dá)到了先進(jìn)水平。

Dreamer的基本架構(gòu)

Dreamer和典型的基于模型方法一樣包含三個(gè)過程：學(xué)習(xí)世界模型、基于世界模型的預(yù)測學(xué)習(xí)行為、在環(huán)境中執(zhí)行學(xué)習(xí)到的行為來收集新的經(jīng)驗(yàn)。為了學(xué)習(xí)行為，Dreamer中利用價(jià)值網(wǎng)絡(luò)（valuenetwork ）將規(guī)劃視野外的獎(jiǎng)勵(lì)納入考量，同時(shí)利用行為網(wǎng)絡(luò)（actor network）來高效的計(jì)算行為。這三部分可以并行地執(zhí)行，一直重復(fù)運(yùn)行直到達(dá)成目標(biāo)：

Dreamer主體的三個(gè)過程，世界模型基于過去經(jīng)驗(yàn)學(xué)習(xí)、隨后基于這一模型預(yù)測，主體通過價(jià)值網(wǎng)絡(luò)來預(yù)測未來獎(jiǎng)勵(lì)、行為網(wǎng)絡(luò)來選擇行為。行為網(wǎng)絡(luò)用于與環(huán)境交互。

學(xué)習(xí)世界模型

Dreamer采用了PlaNet的世界模型，通過一系列緊致的模型狀態(tài)來預(yù)測輸出，而這些模型狀態(tài)則通過輸入圖像計(jì)算得到，而不是直接利用圖像來進(jìn)行處理。它將自動(dòng)學(xué)習(xí)得出代表有益于預(yù)測未來輸出概念的模型狀態(tài)，例如目標(biāo)類型、位置以及目標(biāo)與周圍環(huán)境的交互等等。給定數(shù)據(jù)集中一個(gè)過去的圖像、行為和獎(jiǎng)勵(lì)序列，Dreamer按照下圖的方式進(jìn)行世界模型的學(xué)習(xí)：

Dreamer 從經(jīng)驗(yàn)中學(xué)習(xí)世界模型，利用過去的圖像（o1–o3）、行為（a1–a2），它將計(jì)算出緊致的模型狀態(tài)（綠色圓），并可以基于這些狀態(tài)重建出圖像并預(yù)測出獎(jiǎng)勵(lì)。

利用PlaNet世界模型的優(yōu)勢在于利用緊致的模型狀態(tài)代替了圖像來進(jìn)行預(yù)測，極大地提高了計(jì)算效率。這使得模型可以在單個(gè)GPU上預(yù)并行的預(yù)測上千個(gè)序列。這種方式同時(shí)可以提高模型的泛化性，進(jìn)行精確的長時(shí)視頻預(yù)測。為了更好地理解模型的工作原理，下圖展示了將預(yù)測序列模型狀態(tài)解碼回圖像的結(jié)果：

復(fù)雜環(huán)境下的長程預(yù)測結(jié)果，上圖顯示了兩個(gè)主體未曾遇到過的序列，給定五張輸入圖像，模型對(duì)其進(jìn)行重建并預(yù)測出了后續(xù)到50步的圖像結(jié)果。

高效行為學(xué)習(xí)

先前基于模型的主體選擇行為的方法分為兩種，要么通過多個(gè)模型預(yù)測來進(jìn)行規(guī)劃、要么通過將世界模型代替模擬器來復(fù)用無模型方法的技術(shù)，但兩種方法都需要龐大的計(jì)算需求，同時(shí)也未充分利用學(xué)習(xí)到的世界模型。此外及時(shí)強(qiáng)大的世界模型也會(huì)受制于精確預(yù)測的長度，很多先前基于模型的主體表現(xiàn)出短視的缺點(diǎn)。Dreamer通過世界模型的預(yù)測進(jìn)行反向傳播學(xué)習(xí)價(jià)值網(wǎng)絡(luò)和行為網(wǎng)絡(luò)來克服上述局限。

Dreamer通過預(yù)測的狀態(tài)序列反向傳播獎(jiǎng)勵(lì)來高效地學(xué)習(xí)行為網(wǎng)絡(luò)用于預(yù)測正確的行為，這在無模型方法中是無法實(shí)現(xiàn)的。這將告訴Dreamer其多小的行為變化將會(huì)影響未來預(yù)測的獎(jiǎng)勵(lì)，使得它可以向最大化獎(jiǎng)勵(lì)的方向上優(yōu)化行為網(wǎng)絡(luò)。為了考慮預(yù)測范圍外的獎(jiǎng)勵(lì)，價(jià)值網(wǎng)絡(luò)將估計(jì)每一個(gè)模型狀態(tài)未來的獎(jiǎng)勵(lì)和，獎(jiǎng)勵(lì)和價(jià)值將反向傳播來優(yōu)化行為網(wǎng)絡(luò)去改善行為。

Dreamer通過模型狀態(tài)預(yù)測序列來學(xué)習(xí)長程行為，首先學(xué)習(xí)每個(gè)狀態(tài)的長程價(jià)值，而后通過反向傳播到行為網(wǎng)絡(luò)來預(yù)測能夠得到高價(jià)值和獎(jiǎng)勵(lì)的行為。

Dreamer與PlaNet有諸多不同，在環(huán)境中的給定狀態(tài)下，PlaNet在不同行為序列的多個(gè)預(yù)測中搜索最佳行為，而Dreamer則避開了這種計(jì)算消耗巨大的搜索方式，利用規(guī)劃和行為解耦的方式來提高計(jì)算效率。一旦在預(yù)測序列上訓(xùn)練好了行為網(wǎng)絡(luò)，它將計(jì)算與環(huán)境交互的行為而無需額外的搜索。此外Dreamer利用價(jià)值函數(shù)考慮到了規(guī)劃以外的獎(jiǎng)勵(lì)并通過反向傳播提高了規(guī)劃的效率。

控制任務(wù)上的表現(xiàn)

為了測試Dreamer的性能，研究人員在20個(gè)不同的任務(wù)上對(duì)其進(jìn)行了測評(píng)，包括平衡、控制、運(yùn)動(dòng)等多種復(fù)雜的強(qiáng)化學(xué)習(xí)任務(wù)。

多種復(fù)雜的任務(wù)，其輸入為圖像。包括了碰撞、稀疏獎(jiǎng)勵(lì)、混沌動(dòng)力學(xué)和高自由度甚至三維視角等復(fù)雜情況。

研究人員將Dreamer與多個(gè)先進(jìn)的模型進(jìn)行了比較，包括先前最先進(jìn)的基于模型的方法PlaNet、無模型方法A3C、結(jié)合多種先進(jìn)手段的無模型方法D4PG。實(shí)驗(yàn)表明，基于模型的主體可以在五百萬幀內(nèi)完成高效學(xué)習(xí)，大概對(duì)應(yīng)28小時(shí)的仿真，而無模型的方法則需要近100萬幀的學(xué)習(xí)，大概對(duì)應(yīng)23天的仿真訓(xùn)練。在20個(gè)任務(wù)的測評(píng)基準(zhǔn)上，Dreamer領(lǐng)先于目前最先進(jìn)的無模型方法D4PG（平均分823＞786），同時(shí)其與環(huán)境的交互大概要少二十倍。此外它最終的結(jié)果在所有任務(wù)上也超過了先前最好的基于模型方法PlaNet，最終的結(jié)果如下圖所示：

Dreamer的性能與其他方法的比較，其得分、數(shù)據(jù)效率和計(jì)算時(shí)間都比先前方法要好。

此外研究人員還在連續(xù)任務(wù)上進(jìn)行了實(shí)驗(yàn)，以驗(yàn)證Dreamer面對(duì)復(fù)雜環(huán)境的能力。下面的任務(wù)需要不僅需要長程行為預(yù)測，同時(shí)還需要模型具有空間感知能力。實(shí)驗(yàn)表明Dreamer對(duì)于這些更具挑戰(zhàn)的任務(wù)依然能夠很好的進(jìn)行處理：

Dreamer成功的在雅達(dá)利游戲和DeepMind環(huán)境中運(yùn)行，這些離散的任務(wù)更具挑戰(zhàn)性。

Dreamer不僅在性能上超越了原有基于模型的方法，同時(shí)在計(jì)算效率上也大幅提升。研究人員認(rèn)為Dreamer將為強(qiáng)化學(xué)習(xí)提供更為堅(jiān)實(shí)的發(fā)展根基，同時(shí)也將促進(jìn)更好的表示學(xué)習(xí)、基于不確定性的方向探索、時(shí)域抽象和多任務(wù)學(xué)習(xí)的發(fā)展。
? ? ? ?責(zé)任編輯：wv?

閱讀全文

谷歌(110578) 谷歌(110578)
人工智能(262996) 人工智能(262996)
深度學(xué)習(xí)(124080) 深度學(xué)習(xí)(124080)

評(píng)論

基于多智能體深度強(qiáng)化學(xué)習(xí)的體系任務(wù)分配方法

為了應(yīng)對(duì)在未來復(fù)雜的戰(zhàn)場環(huán)境下，由于通信受限等原因?qū)е碌募惺經(jīng)Q策模式難以實(shí)施的情況，提出了一個(gè)基于多智能體深度強(qiáng)化學(xué)習(xí)方法的分布式作戰(zhàn)體系任務(wù)分配算法，該算法為各作戰(zhàn)單元均設(shè)計(jì)一個(gè)獨(dú)立的策略網(wǎng)絡(luò)

2023-05-18 16:46:43

6310

百度提出交互式學(xué)習(xí)方法：讓機(jī)器在對(duì)話中學(xué)會(huì)自然語言

電子發(fā)燒友早八點(diǎn)訊：自然語言處理一直是人工智能發(fā)展道路上面臨的巨大挑戰(zhàn)。此前，大多數(shù)研究都是讓機(jī)器學(xué)習(xí)模型在大量已標(biāo)記數(shù)據(jù)集上進(jìn)行訓(xùn)練的。最近，百度研究院人員提出了一種全新的方法，研究人員讓人工智能系統(tǒng)通過與「教師」的口語對(duì)話來學(xué)習(xí)自然語言和知識(shí)。

2017-06-09 06:00:00

2677

基于帶約束強(qiáng)化學(xué)習(xí)的高效能在線碼垛機(jī)器人

國防科技大學(xué)、克萊姆森大學(xué)和視比特機(jī)器人的研究人員合作使用深度強(qiáng)化學(xué)習(xí)求解在線裝箱問題，該方法的性能表現(xiàn)優(yōu)于現(xiàn)有的啟發(fā)式算法。用戶研究顯示，該算法達(dá)到甚至超越了人類的在線碼垛水平。作者團(tuán)隊(duì)還將訓(xùn)練

2021-01-13 15:22:38

2946

什么是深度強(qiáng)化學(xué)習(xí)?深度強(qiáng)化學(xué)習(xí)算法應(yīng)用分析

什么是深度強(qiáng)化學(xué)習(xí)? 眾所周知，人類擅長解決各種挑戰(zhàn)性的問題，從低級(jí)的運(yùn)動(dòng)控制(如：步行、跑步、打網(wǎng)球)到高級(jí)的認(rèn)知任務(wù)。

2023-07-01 10:29:50

2122

STM32的學(xué)習(xí)方法分享？

STM32的學(xué)習(xí)方法

2020-08-14 04:00:51

arm單片機(jī) 學(xué)習(xí)方法

大家給推薦下 arm 學(xué)習(xí)方法

2012-03-30 09:10:09

反向強(qiáng)化學(xué)習(xí)的思路

強(qiáng)化學(xué)習(xí)的另一種策略（二）

2019-04-03 12:10:44

快速的學(xué)習(xí)方法?

有老師跟我說學(xué)習(xí)方法,直接從模塊化電路一個(gè)一個(gè)的學(xué),不明白的再看電路基礎(chǔ)的相關(guān)章節(jié),這樣好嗎?有沒有具體有哪些模塊,求詳細(xì)說下,,或有其他快速學(xué)習(xí)的方法.請指點(diǎn)下.

2016-06-25 22:28:08

未來的AI 深挖谷歌 DeepMind 和它背后的技術(shù)

GridWorld，它可確保AI對(duì)自身、開發(fā)人員和其他接觸到它的人都是安全無害的。DeepMind 的深度強(qiáng)化學(xué)習(xí)DeepMind通過實(shí)現(xiàn)一個(gè)完全不同的技術(shù)系統(tǒng)，將深度學(xué)習(xí)提升到了一個(gè)全新的水平。該系統(tǒng)稱為深度

2020-08-26 12:04:19

深度學(xué)習(xí)技術(shù)的開發(fā)與應(yīng)用

2.算法設(shè)計(jì) 3.實(shí)驗(yàn)結(jié)果高頻問題：如何將一個(gè)控制問題設(shè)計(jì)成馬爾可夫決策問題并使用強(qiáng)化學(xué)習(xí)算法進(jìn)行訓(xùn)練關(guān)鍵點(diǎn)：1.基于模型的離線強(qiáng)化學(xué)習(xí)方法 2.基于數(shù)據(jù)的在線強(qiáng)化學(xué)習(xí)方法實(shí)操解析與訓(xùn)練二實(shí)驗(yàn)

2022-04-21 14:57:39

深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

內(nèi)容2:課程一： TensoRFlow入門到熟練：課程二：圖像分類：課程三：物體檢測：課程四：人臉識(shí)別：課程五：算法實(shí)現(xiàn)：1、卷積神經(jīng)網(wǎng)絡(luò)CNN2、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN3、強(qiáng)化學(xué)習(xí)DRL4、對(duì)抗性生成

2021-01-10 13:42:26

請教STM32開發(fā)板的學(xué)習(xí)方法

請教STM32開發(fā)板的學(xué)習(xí)方法，請教快速高效的方法

2019-04-22 06:35:06

模擬電子電路的學(xué)習(xí)方法

模擬電子電路的學(xué)習(xí)方法

2009-08-07 15:49:55

254

視頻監(jiān)控人員行為識(shí)別燧機(jī)科技

視頻監(jiān)控人員行為識(shí)別技術(shù)基于先進(jìn)的計(jì)算機(jī)視覺和深度學(xué)習(xí)算法。視頻監(jiān)控人員行為識(shí)別利用大量的視頻數(shù)據(jù)進(jìn)行模型訓(xùn)練，使算法能夠學(xué)習(xí)和識(shí)別員工的不同行為特征。然后，將訓(xùn)練好的模型應(yīng)用到實(shí)際的監(jiān)控系統(tǒng)中

2024-08-29 18:02:12

ZigBee 簡介和學(xué)習(xí)方法

zigbee簡介以及學(xué)習(xí)方法，ZigBee的歷史發(fā)展前景。

2016-04-15 14:07:57

深度強(qiáng)化學(xué)習(xí)是什么？有什么優(yōu)點(diǎn)？

與監(jiān)督機(jī)器學(xué)習(xí)不同，在強(qiáng)化學(xué)習(xí)中，研究人員通過讓一個(gè)代理與環(huán)境交互來訓(xùn)練模型。當(dāng)代理的行為產(chǎn)生期望的結(jié)果時(shí)，它得到正反饋。例如，代理人獲得一個(gè)點(diǎn)數(shù)或贏得一場比賽的獎(jiǎng)勵(lì)。簡單地說，研究人員加強(qiáng)了代理人的良好行為。

2018-07-13 09:33:00

25158

將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

深度強(qiáng)化學(xué)習(xí)DRL自提出以來，已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo，將深度強(qiáng)化學(xué)習(xí)DRL成推上新的熱點(diǎn)和高度，成為人工智能歷史上一個(gè)新的里程碑。因此，深度強(qiáng)化學(xué)習(xí)DRL非常值得研究。

2018-06-29 18:36:00

28671

薩頓科普了強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)，并談到了這項(xiàng)技術(shù)的潛力和發(fā)展方向

薩頓在專訪中（再次）科普了強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)，并談到了這項(xiàng)技術(shù)的潛力，以及接下來的發(fā)展方向：預(yù)測學(xué)習(xí)

2017-12-27 09:07:15

11877

基于分層強(qiáng)化學(xué)習(xí)的多Agent路徑規(guī)劃

策略可獲得的最大回報(bào)；其次，利用分層強(qiáng)化學(xué)習(xí)方法的無環(huán)境模型學(xué)習(xí)以及局部更新能力將策略更新過程限制在規(guī)模較小的局部空間或維度較低的高層空間上，提高學(xué)習(xí)算法的性能；最后，針對(duì)出租車問題在柵格環(huán)境中對(duì)所提算法進(jìn)行了仿真實(shí)驗(yàn)

2017-12-27 14:32:02

多示例多標(biāo)記學(xué)習(xí)方法

針對(duì)現(xiàn)有的大部分多示例多標(biāo)記（ MIML）算法都沒有考慮如何更好地表示對(duì)象特征這一問題，將概率潛在語義分析（ PLSA）模型和神經(jīng)網(wǎng)絡(luò)（NN）相結(jié)合，提出了基于主題模型的多示例多標(biāo)記學(xué)習(xí)方法。算法

2018-01-05 10:22:27

基于LCS和LS-SVM的多機(jī)器人強(qiáng)化學(xué)習(xí)

本文提出了一種LCS和LS-SVM相結(jié)合的多機(jī)器人強(qiáng)化學(xué)習(xí)方法，LS-SVM獲得的最優(yōu)學(xué)習(xí)策略作為LCS的初始規(guī)則集。LCS通過與環(huán)境的交互，能更快發(fā)現(xiàn)指導(dǎo)多機(jī)器人強(qiáng)化學(xué)習(xí)的規(guī)則，為強(qiáng)化學(xué)習(xí)系統(tǒng)

2018-01-09 14:43:49

隨機(jī)塊模型學(xué)習(xí)算法

主要挑戰(zhàn)．提出一種精細(xì)隨機(jī)塊模型及其快速學(xué)習(xí)算法，該學(xué)習(xí)方法基于提出的模型與最小消息長度推導(dǎo)出一個(gè)新成本函數(shù)，利用期望最大化參數(shù)估計(jì)方法，實(shí)現(xiàn)了邊評(píng)價(jià)模型邊估計(jì)參數(shù)的并行學(xué)習(xí)策略。以此方式顯著降低隨機(jī)塊模

2018-01-09 18:20:04

模型驅(qū)動(dòng)深度學(xué)習(xí)的標(biāo)準(zhǔn)流程與學(xué)習(xí)方法解析

模型驅(qū)動(dòng)的深度學(xué)習(xí)方法近年來，深度學(xué)習(xí)在人工智能領(lǐng)域一系列困難問題上取得了突破性成功應(yīng)用。

2018-01-24 11:30:13

5356

強(qiáng)化學(xué)習(xí)的風(fēng)儲(chǔ)合作決策

在風(fēng)儲(chǔ)配置給定前提下，研究風(fēng)電與儲(chǔ)能系統(tǒng)如何有機(jī)合作的問題。核心在于風(fēng)電與儲(chǔ)能組成混合系統(tǒng)參與電力交易，通過合作提升其市場競爭的能力。針對(duì)現(xiàn)有研究的不足，在具有過程化樣本的前提下，引入強(qiáng)化學(xué)習(xí)算法

2018-01-27 10:20:50

解析圖像分類器結(jié)構(gòu)搜索的正則化異步進(jìn)化方法并和強(qiáng)化學(xué)習(xí)方法進(jìn)行對(duì)比

在本篇論文中，研究人員使用流行的異步進(jìn)化算法（asynchronous evolutionary algorithm）的正則化版本，并將其與非正則化的形式以及強(qiáng)化學(xué)習(xí)方法進(jìn)行比較。

2018-02-09 14:47:41

4352

如何深度強(qiáng)化學(xué)習(xí) 人工智能和深度學(xué)習(xí)的進(jìn)階

傳統(tǒng)上，強(qiáng)化學(xué)習(xí)在人工智能領(lǐng)域占據(jù)著一個(gè)合適的地位。但強(qiáng)化學(xué)習(xí)在過去幾年已開始在很多人工智能計(jì)劃中發(fā)揮更大的作用。

2018-03-03 14:16:56

4677

DeepMind提出強(qiáng)化學(xué)習(xí)新算法，教智能體從零學(xué)控制

3月2日，DeepMind發(fā)表博客文章，提出一種稱為SAC-X（計(jì)劃輔助控制）的新學(xué)習(xí)范式，旨在解決讓AI以最少的先驗(yàn)知識(shí)，從頭開始學(xué)習(xí)復(fù)雜控制問題的挑戰(zhàn)。

2018-03-17 09:12:51

4214

【重磅】DeepMind發(fā)布通用強(qiáng)化學(xué)習(xí)新范式，自主機(jī)器人可學(xué)會(huì)任何任務(wù)

SAC-X是一種通用的強(qiáng)化學(xué)習(xí)方法，未來可以應(yīng)用于機(jī)器人以外的更廣泛領(lǐng)域

2018-03-19 14:45:48

2248

簡單隨機(jī)搜索：無模型強(qiáng)化學(xué)習(xí)的高效途徑

沒有設(shè)計(jì)目標(biāo)函數(shù)的最佳方法，并且模型是分段線性的。只要機(jī)器人的任何部位碰到堅(jiān)硬物體，模型就會(huì)變化，因此會(huì)出現(xiàn)此前沒有的作用于機(jī)器人的法向力。于是，讓機(jī)器人無需處理復(fù)雜的非凸非線性模型而正常工作，對(duì)強(qiáng)化學(xué)習(xí)來說是個(gè)有趣的挑戰(zhàn)。

2018-04-01 09:35:00

4894

谷歌提出對(duì)加速智能體的學(xué)習(xí)過程

谷歌大腦聯(lián)合佐治亞理工學(xué)院提出了正向-反向強(qiáng)化學(xué)習(xí)（Forward-Backward Reinforcement Learning，F(xiàn)BRL），它既能從開始位置正向進(jìn)行探索，也可以從目標(biāo)開始進(jìn)行反向探索，從而加速智能體的學(xué)習(xí)過程。

2018-04-02 09:50:21

6609

強(qiáng)化學(xué)習(xí)究竟是什么？它與機(jī)器學(xué)習(xí)技術(shù)有什么聯(lián)系？

Q-learning和SARSA是兩種最常見的不理解環(huán)境強(qiáng)化學(xué)習(xí)算法，這兩者的探索原理不同，但是開發(fā)原理是相似的。Q-learning是一種離線學(xué)習(xí)算法，智能體需要從另一項(xiàng)方案中學(xué)習(xí)到行為a*的價(jià)值

2018-04-15 10:32:22

14964

人工智能機(jī)器學(xué)習(xí)之強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí)，以使獎(jiǎng)勵(lì)信號(hào)（強(qiáng)化信號(hào)）函數(shù)值最大，強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督學(xué)習(xí)，主要表現(xiàn)在教師信號(hào)上，強(qiáng)化學(xué)習(xí)中由環(huán)境提供的強(qiáng)化信號(hào)是對(duì)產(chǎn)生動(dòng)作的好壞作一種評(píng)價(jià)

2018-05-30 06:53:00

1741

利用強(qiáng)化學(xué)習(xí)探索多巴胺對(duì)學(xué)習(xí)的作用

當(dāng)我們使用虛擬的計(jì)算機(jī)屏幕和隨機(jī)選擇的圖像來模擬一個(gè)非常相似的測試時(shí)，我們發(fā)現(xiàn)，我們的“元強(qiáng)化學(xué)習(xí)智能體”（meta-RL agent）似乎是以類似于Harlow實(shí)驗(yàn)中的動(dòng)物的方式在學(xué)習(xí)，甚至在被顯示以前從未見過的全新圖像時(shí)也是如此。

2018-05-16 09:03:39

5238

斯坦福提出基于目標(biāo)的策略強(qiáng)化學(xué)習(xí)方法——SOORL

為了達(dá)到人類學(xué)習(xí)的速率，斯坦福的研究人員們提出了一種基于目標(biāo)的策略強(qiáng)化學(xué)習(xí)方法——SOORL，把重點(diǎn)放在對(duì)策略的探索和模型選擇上。

2018-06-06 11:18:23

5925

探討機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、NLP、計(jì)算機(jī)視覺最新進(jìn)展

谷歌在人工智能領(lǐng)域最終目標(biāo)是三點(diǎn)：利用人工智能和機(jī)器學(xué)習(xí)讓谷歌的產(chǎn)品更加實(shí)用（Making products more useful）；幫助企業(yè)和外部開發(fā)者利用人工智能和機(jī)器學(xué)習(xí)進(jìn)行創(chuàng)新（Helping others innovate）；為研究人員提供更好的工具，解決人類面臨的重大挑戰(zhàn)。

2018-07-02 16:27:43

5992

強(qiáng)化學(xué)習(xí)的經(jīng)典基礎(chǔ)性缺陷可能限制它解決很多復(fù)雜問題

這些都是除了從零學(xué)習(xí)之外的強(qiáng)化學(xué)習(xí)方法。特別是元學(xué)習(xí)和零次學(xué)習(xí)體現(xiàn)了人在學(xué)習(xí)一種新技能時(shí)更有可能的做法，與純強(qiáng)化學(xué)習(xí)有差別。一個(gè)元學(xué)習(xí)智能體會(huì)利用先驗(yàn)知識(shí)快速學(xué)習(xí)棋類游戲，盡管它不明白游戲規(guī)則

2018-07-14 08:42:28

8414

什么是強(qiáng)化學(xué)習(xí)？純強(qiáng)化學(xué)習(xí)有意義嗎？強(qiáng)化學(xué)習(xí)有什么的致命缺陷？

強(qiáng)化學(xué)習(xí)是人工智能基本的子領(lǐng)域之一，在強(qiáng)化學(xué)習(xí)的框架中，智能體通過與環(huán)境互動(dòng)，來學(xué)習(xí)采取何種動(dòng)作能使其在給定環(huán)境中的長期獎(jiǎng)勵(lì)最大化，就像在上述的棋盤游戲寓言中，你通過與棋盤的互動(dòng)來學(xué)習(xí)。

2018-07-15 10:56:37

18470

OpenAI 把在模擬器中強(qiáng)化學(xué)習(xí)學(xué)到的方案遷移到機(jī)械手上

這些具有一定難度的任務(wù) OpenAI 自己也在研究，他們認(rèn)為這是深度強(qiáng)化學(xué)習(xí)發(fā)展到新時(shí)代之后可以作為新標(biāo)桿的算法測試任務(wù)，而且也歡迎其它機(jī)構(gòu)與學(xué)校的研究人員一同研究這些任務(wù)，把深度強(qiáng)化學(xué)習(xí)的表現(xiàn)推上新的臺(tái)階。

2018-08-03 14:27:26

5370

強(qiáng)化學(xué)習(xí)和監(jiān)督式學(xué)習(xí), 非監(jiān)督式學(xué)習(xí)的區(qū)別

而這時(shí)，強(qiáng)化學(xué)習(xí)會(huì)在沒有任何標(biāo)簽的情況下，通過先嘗試做出一些行為得到一個(gè)結(jié)果，通過這個(gè)結(jié)果是對(duì)還是錯(cuò)的反饋，調(diào)整之前的行為，就這樣不斷的調(diào)整，算法能夠學(xué)習(xí)到在什么樣的情況下選擇什么樣的行為可以得到最好的結(jié)果。

2018-08-21 09:18:25

21886

谷歌推出新的基于Tensorflow的強(qiáng)化學(xué)習(xí)框架，稱為Dopamine

強(qiáng)化學(xué)習(xí)（RL）研究在過去幾年取得了許多重大進(jìn)展。強(qiáng)化學(xué)習(xí)的進(jìn)步使得 AI 智能體能夠在一些游戲上超過人類，值得關(guān)注的例子包括 DeepMind 攻破 Atari 游戲的 DQN，在圍棋中獲得矚目的 AlphaGo 和 AlphaGo Zero，以及在 Dota2 對(duì)戰(zhàn)人類職業(yè)玩家的Open AI Five。

2018-08-31 09:20:49

4367

Google強(qiáng)化學(xué)習(xí)框架，要滿足哪三大特性

強(qiáng)化學(xué)習(xí)是一種非常重要 AI 技術(shù)，它能使用獎(jiǎng)勵(lì)（或懲罰）來驅(qū)動(dòng)智能體（agents）朝著特定目標(biāo)前進(jìn)，比如它訓(xùn)練的 AI 系統(tǒng) AlphaGo 擊敗了頂尖圍棋選手，它也是 DeepMind 的深度

2018-09-03 14:06:30

3344

用PopArt進(jìn)行多任務(wù)深度強(qiáng)化學(xué)習(xí)

按照以往的做法，如果研究人員要用強(qiáng)化學(xué)習(xí)算法對(duì)獎(jiǎng)勵(lì)進(jìn)行剪枝，以此克服獎(jiǎng)勵(lì)范圍各不相同的問題，他們首先會(huì)把大的獎(jiǎng)勵(lì)設(shè)為+1，小的獎(jiǎng)勵(lì)為-1，然后對(duì)預(yù)期獎(jiǎng)勵(lì)做歸一化處理。雖然這種做法易于學(xué)習(xí)，但它也改變了智能體的目標(biāo)。

2018-09-16 09:32:03

6329

DeepMind攜手Unity，加速機(jī)器學(xué)習(xí)和人工智能研究

2014年被谷歌收購的英國人工智能公司DeepMind部門與Unity合作，加速機(jī)器學(xué)習(xí)和人工智能（AI）研究。該合作將重點(diǎn)關(guān)注DeepMind和其他人可用于測試和可視化實(shí)驗(yàn)算法的“虛擬環(huán)境”。

2018-09-28 10:43:58

1533

基于強(qiáng)化學(xué)習(xí)的MADDPG算法原理及實(shí)現(xiàn)

之前接觸的強(qiáng)化學(xué)習(xí)算法都是單個(gè)智能體的強(qiáng)化學(xué)習(xí)算法，但是也有很多重要的應(yīng)用場景牽涉到多個(gè)智能體之間的交互。

2018-11-02 16:18:15

22830

如何構(gòu)建強(qiáng)化學(xué)習(xí)模型來訓(xùn)練無人車算法

本文作者通過簡單的方式構(gòu)建了強(qiáng)化學(xué)習(xí)模型來訓(xùn)練無人車算法，可以為初學(xué)者提供快速入門的經(jīng)驗(yàn)。

2018-11-12 14:47:39

5434

利用機(jī)器學(xué)習(xí)來捕捉內(nèi)部漏洞的工具運(yùn)用無監(jiān)督學(xué)習(xí)方法可發(fā)現(xiàn)入侵者

Darktrace新網(wǎng)絡(luò)安全公司與劍橋大學(xué)的數(shù)學(xué)家合作，開發(fā)了一種利用機(jī)器學(xué)習(xí)來捕捉內(nèi)部漏洞的工具。它運(yùn)用無監(jiān)督學(xué)習(xí)方法，查看大量未標(biāo)記的數(shù)據(jù)，并找到不遵循典型模式的碎片。這些原始數(shù)據(jù)匯集到60多種不同的無監(jiān)督學(xué)習(xí)算法中，它們相互競爭以發(fā)現(xiàn)異常行為。

2018-11-22 16:01:50

1540

使用加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)方法說明

針對(duì)深度強(qiáng)化學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)（CNN）層數(shù)過深導(dǎo)致的梯度消失問題，提出一種將密集連接卷積網(wǎng)絡(luò)應(yīng)用于強(qiáng)化學(xué)習(xí)的方法。首先，利用密集連接卷積網(wǎng)絡(luò)中的跨層連接結(jié)構(gòu)進(jìn)行圖像特征的有效提??；然后，在密集連接

2019-01-23 10:41:51

谷歌大腦的“世界模型”簡述與啟發(fā)

在所謂的“世界模型”，其中的組件模型幾乎沒有是谷歌大腦自己創(chuàng)新研制的。但世界模型會(huì)很大提高強(qiáng)化學(xué)習(xí)訓(xùn)練穩(wěn)定性和成績從而使其與其他強(qiáng)化學(xué)習(xí)相比有一些明顯優(yōu)勢，如下表所示;

2019-01-30 09:48:25

3936

谷歌、DeepMind重磅推出PlaNet 強(qiáng)化學(xué)習(xí)新突破

Google AI 與 DeepMind 合作推出深度規(guī)劃網(wǎng)絡(luò) (PlaNet)，這是一個(gè)純粹基于模型的智能體，能從圖像輸入中學(xué)習(xí)世界模型，完成多項(xiàng)規(guī)劃任務(wù)，數(shù)據(jù)效率平均提升50倍，強(qiáng)化學(xué)習(xí)又一突破。

2019-02-17 09:30:28

3943

SiATL——最新、最簡易的遷移學(xué)習(xí)方法

許多傳統(tǒng)的遷移學(xué)習(xí)方法都是利用預(yù)先訓(xùn)練好的語言模型（LMs）來實(shí)現(xiàn)的，這些模型已經(jīng)非常流行，并且具有翻譯上下文信息的能力、高級(jí)建模語法和語義語言特性，能夠在對(duì)象識(shí)別、機(jī)器翻譯、文本分類等許多任務(wù)中生成高質(zhì)量的結(jié)果。

2019-03-12 15:13:59

4150

DeepMind 綜述深度強(qiáng)化學(xué)習(xí):智能體和人類相似度竟然如此高！

近年來，深度強(qiáng)化學(xué)習(xí)（Deep reinforcement learning）方法在人工智能方面取得了矚目的成就

2019-06-03 14:36:05

3355

開辟新篇章!谷歌機(jī)器學(xué)習(xí)又有新進(jìn)展!

在谷歌最新的論文中，研究人員提出了“非政策強(qiáng)化學(xué)習(xí)”算法OPC，它是強(qiáng)化學(xué)習(xí)的一種變體，它能夠評(píng)估哪種機(jī)器學(xué)習(xí)模型將產(chǎn)生最好的結(jié)果。

2019-06-22 11:16:29

2926

太秀了！DeepMind推出最強(qiáng)表示學(xué)習(xí)模型BigBiGAN

研究人員廣泛評(píng)估了BigBiGAN模型的表示學(xué)習(xí)和生成性能，證明這些基于生成的模型在ImageNet上的無監(jiān)督表示學(xué)習(xí)和無條件圖像生成方面都達(dá)到了state of the art的水平。

2019-07-13 08:01:00

4573

基于序列信息來預(yù)測潛在的抗癌多肽的深度學(xué)習(xí)方法

中國科學(xué)院新疆理化技術(shù)研究所研究人員首次開發(fā)和提出了基于序列信息來預(yù)測潛在的抗癌多肽的深度學(xué)習(xí)方法。首先，研究人員基于現(xiàn)有的研究，整理構(gòu)建了用于機(jī)器學(xué)習(xí)的抗癌多肽數(shù)據(jù)集

2019-09-20 15:13:00

3264

深度強(qiáng)化學(xué)習(xí)你知道是什么嗎

強(qiáng)化學(xué)習(xí)非常適合實(shí)現(xiàn)自主決策，相比之下監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)技術(shù)則無法獨(dú)立完成此項(xiàng)工作。

2019-12-10 14:34:57

1667

懶惰強(qiáng)化學(xué)習(xí)算法在發(fā)電調(diào)控REG框架的應(yīng)用

惰性是人類的天性，然而惰性能讓人類無需過于復(fù)雜的練習(xí)就能學(xué)習(xí)某項(xiàng)技能，對(duì)于人工智能而言，是否可有基于惰性的快速學(xué)習(xí)的方法？本文提出一種懶惰強(qiáng)化學(xué)習(xí)(Lazy reinforcement learning, LRL) 算法。

2020-01-16 17:40:00

1238

研究人員使用深度學(xué)習(xí)方法研究預(yù)測RNA結(jié)構(gòu)的方法

格里菲斯大學(xué)(Griffith University)的研究人員在世界上首屈一指，已使用人工智能方法更好地預(yù)測RNA二級(jí)結(jié)構(gòu)，希望可以將其開發(fā)成為更好地了解RNA如何與多種疾病(例如癌癥)相關(guān)的工具。

2020-03-13 09:25:01

1229

谷歌DeepMind設(shè)置強(qiáng)迫機(jī)制使AI實(shí)現(xiàn)利益最大化

最近谷歌DeepMind提出了一種新的強(qiáng)化學(xué)習(xí)技術(shù)，這種技術(shù)以一種全新方式來模擬人類行為。它可能會(huì)比之前發(fā)布的人工智能決策系統(tǒng)更強(qiáng)大，這對(duì)希望通過自動(dòng)化提高生產(chǎn)率的企業(yè)來說可能是個(gè)福音。

2020-03-16 09:24:16

2095

谷歌發(fā)明自主學(xué)習(xí)機(jī)器人結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩種類型的技術(shù)

）的研究人員聯(lián)合發(fā)表了一篇論文，詳細(xì)介紹了他們構(gòu)建的一個(gè)通過 AI 技術(shù)自學(xué)走路的機(jī)器人。該機(jī)器人結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩種不同類型的 AI 技術(shù)，具備直接放置于真實(shí)環(huán)境中進(jìn)行訓(xùn)練的條件。

2020-03-17 15:15:30

1764

研究人員實(shí)現(xiàn)無創(chuàng)早期肺癌篩查，以機(jī)器學(xué)習(xí)為基礎(chǔ)

根據(jù) Nature 雜志發(fā)表的一項(xiàng)研究，斯坦福大學(xué)研究人員開發(fā)了一種機(jī)器學(xué)習(xí)方法，能夠實(shí)現(xiàn)早期肺癌患者的鑒別篩查。

2020-03-27 16:06:04

1150

研究人員正在利用機(jī)器學(xué)習(xí)算法來預(yù)測電池的健康狀況和使用壽命

來自劍橋大學(xué)和紐卡斯?fàn)柎髮W(xué)的研究人員設(shè)計(jì)了一種新的方法，通過向電池發(fā)送電脈沖并測量其響應(yīng)來監(jiān)測電池。然后，他們利用機(jī)器學(xué)習(xí)算法對(duì)測量數(shù)據(jù)進(jìn)行處理，以預(yù)測電池的健康狀況和使用壽命。

2020-04-09 11:18:22

1570

研究人員開源RAD以改進(jìn)及強(qiáng)化智能學(xué)習(xí)算法

加州大學(xué)伯克利分校的一組研究人員本周開放了使用增強(qiáng)數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)(RAD)的資源。

2020-05-11 23:09:04

1703

深度強(qiáng)化學(xué)習(xí)的概念和工作原理的詳細(xì)資料說明

深度學(xué)習(xí)DL是機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。深度學(xué)習(xí)DL有監(jiān)督和非監(jiān)督之分，都已經(jīng)得到廣泛的研究和應(yīng)用。強(qiáng)化學(xué)習(xí)RL是通過對(duì)未知環(huán)境一邊探索一邊建立環(huán)境模型以及學(xué)習(xí)得到一個(gè)最優(yōu)策略。強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中一種快速、高效且不可替代的學(xué)習(xí)算法。

2020-05-16 09:20:40

3977

深度強(qiáng)化學(xué)習(xí)到底是什么？它的工作原理是怎么樣的

2020-06-13 11:39:40

7089

機(jī)器學(xué)習(xí)方法遷移學(xué)習(xí)的發(fā)展和研究資料說明

樣本滿足獨(dú)立同分布的條件;（2）必須有足夠可利用的訓(xùn)練樣本才能學(xué)習(xí)得到一個(gè)好的分類模型。目的是遷移已有的知識(shí)來解決目標(biāo)領(lǐng)域中僅有少量有標(biāo)簽樣本數(shù)據(jù)甚至沒有的學(xué)習(xí)問題。對(duì)遷移學(xué)習(xí)算法的研究以及相關(guān)理論研究的進(jìn)展進(jìn)行

2020-07-17 08:00:00

一文詳談機(jī)器學(xué)習(xí)的強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)屬于機(jī)器學(xué)習(xí)中的一個(gè)子集，它使代理能夠理解在特定環(huán)境中執(zhí)行特定操作的相應(yīng)結(jié)果。目前，相當(dāng)一部分機(jī)器人就在使用強(qiáng)化學(xué)習(xí)掌握種種新能力。

2020-11-06 15:33:49

2130

83篇文獻(xiàn)、萬字總結(jié)強(qiáng)化學(xué)習(xí)之路

深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合的產(chǎn)物，它集成了深度學(xué)習(xí)在視覺等感知問題上強(qiáng)大的理解能力，以及強(qiáng)化學(xué)習(xí)的決策能力，實(shí)現(xiàn)了...

2020-12-10 18:32:50

1078

DeepMind發(fā)布強(qiáng)化學(xué)習(xí)庫RLax

RLax（發(fā)音為“ relax”）是建立在JAX之上的庫，它公開了用于實(shí)施強(qiáng)化學(xué)習(xí)智能體的有用構(gòu)建塊。。報(bào)道：深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室作者：DeepRL ...

2020-12-10 18:43:23

1333

美國陸軍研發(fā)了一種高效的地面機(jī)器人學(xué)習(xí)模型

美國陸軍面向未來多域作戰(zhàn)概念研發(fā)了一種高效的地面機(jī)器人學(xué)習(xí)模型，該模型提出基于強(qiáng)化學(xué)習(xí)的策略，可有效減少當(dāng)前訓(xùn)練強(qiáng)化學(xué)習(xí)策略的不可預(yù)測性，使自主智能體能夠推理并適應(yīng)不斷變化的戰(zhàn)場條件。

2021-01-06 09:20:30

2277

機(jī)器學(xué)習(xí)中的無模型強(qiáng)化學(xué)習(xí)算法及研究綜述

模型化強(qiáng)化學(xué)習(xí)（Mode- based reinforcement Lear-ning）和無模型強(qiáng)化學(xué)習(xí)（ Model- ree reirη forcement Learning）。模型化強(qiáng)化學(xué)習(xí)需要

2021-04-08 11:41:58

模型化深度強(qiáng)化學(xué)習(xí)應(yīng)用研究綜述

強(qiáng)化學(xué)習(xí)。無模型強(qiáng)仳學(xué)習(xí)方法的訓(xùn)練過程需要大量樣本，當(dāng)采樣預(yù)算不足，無法收集大量樣本時(shí)，很難達(dá)到預(yù)期效果。然而，模型化強(qiáng)化學(xué)習(xí)可以充分利用環(huán)境模型，降低真實(shí)樣本需求量，在一定程度上提高樣本效率。將以模型化強(qiáng)化學(xué)習(xí)為核心，介紹

2021-04-12 11:01:52

強(qiáng)化學(xué)習(xí)的雙權(quán)重最小二乘Sarsa算法

強(qiáng)化學(xué)習(xí)是人工智能領(lǐng)域中的一個(gè)研究熱點(diǎn)。在求解強(qiáng)化學(xué)習(xí)問題時(shí)，傳統(tǒng)的最小二乘法作為一類特殊的函數(shù)逼近學(xué)習(xí)方法，具有收斂速度快、充分利用樣本數(shù)據(jù)的優(yōu)勢。通過對(duì)最小二乘時(shí)序差分算法

2021-04-23 15:03:03

基于深度強(qiáng)化學(xué)習(xí)的路口單交叉信號(hào)控制

利用深度強(qiáng)化學(xué)習(xí)技術(shù)實(shí)現(xiàn)路口信號(hào)控制是智能交通領(lǐng)域的硏究熱點(diǎn)?，F(xiàn)有硏究大多利用強(qiáng)化學(xué)習(xí)來全面刻畫交通狀態(tài)以及設(shè)計(jì)有效強(qiáng)化學(xué)習(xí)算法以解決信號(hào)配時(shí)問題，但這些研究往往忽略了信號(hào)燈狀態(tài)對(duì)動(dòng)作選擇的影響以及

2021-04-23 15:30:53

基于遷移學(xué)習(xí)的駕駛分心行為識(shí)別模型

為了提高駕駛分心識(shí)別的應(yīng)用性及識(shí)別模型的可解釋性，利用遷移學(xué)習(xí)方法硏究構(gòu)建駕駛?cè)笋{駛分心行為識(shí)別模型并采用神經(jīng)網(wǎng)絡(luò)可視化技術(shù)硏究對(duì)模型進(jìn)行解釋。以ⅤGσ-6模型為基礎(chǔ)，對(duì)原模型全連接層進(jìn)行修改以適應(yīng)

2021-04-30 13:46:51

基于生成對(duì)抗網(wǎng)絡(luò)的模仿學(xué)習(xí)研究綜述

行為克隆、基于逆向強(qiáng)化學(xué)習(xí)的模仿學(xué)習(xí)兩類方法?；谀嫦?b class="flag-6" style="color: red">強(qiáng)化學(xué)習(xí)的模仿學(xué)習(xí)把模仿學(xué)習(xí)的過程分解成逆向強(qiáng)化學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩個(gè)子過程，并反復(fù)迭代。逆向強(qiáng)化學(xué)習(xí)用于推導(dǎo)符合專家決策數(shù)據(jù)的獎(jiǎng)賞函數(shù)，而強(qiáng)化學(xué)習(xí)基于該

2021-05-10 16:33:24

虛擬乒乓球手的強(qiáng)化學(xué)習(xí)模仿訓(xùn)練方法

沉浸感是虛擬現(xiàn)實(shí)應(yīng)用的重要特征之一，而虛擬場景中角色行為的智能性與真實(shí)性對(duì)虛擬現(xiàn)實(shí)應(yīng)用的沉浸感有著顯著影響。利用強(qiáng)化學(xué)習(xí)方法對(duì)球拍的擊球策略進(jìn)行訓(xùn)練，根據(jù)乒乓球游戲規(guī)則設(shè)計(jì)了一系列獎(jiǎng)勵(lì)函數(shù)，使之能

2021-05-12 14:55:05

基于強(qiáng)化學(xué)習(xí)的壯語詞標(biāo)注方法

目前壯語智能信息處理研究處于起步階段，缺乏自動(dòng)詞性標(biāo)注方法。針對(duì)壯語標(biāo)注語料匱乏、人工標(biāo)注費(fèi)時(shí)費(fèi)力而機(jī)器標(biāo)注性能較差的現(xiàn)狀，提出一種基于強(qiáng)化學(xué)習(xí)的壯語詞性標(biāo)注方法。依據(jù)壯語的文法特點(diǎn)和中文賓州樹庫

2021-05-14 11:29:35

基于深度強(qiáng)化學(xué)習(xí)仿真集成的壓邊力控制模型

壓邊為改善板料拉深制造的成品質(zhì)量，釆用深度強(qiáng)化學(xué)習(xí)的方法進(jìn)行拉深過程旳壓邊力優(yōu)化控制。提岀一種基于深度強(qiáng)化學(xué)習(xí)與有限元仿真集成的壓邊力控制模型，結(jié)合深度神經(jīng)網(wǎng)絡(luò)的感知能力與強(qiáng)化學(xué)習(xí)的決策能力，進(jìn)行

2021-05-27 10:32:39

基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制律設(shè)計(jì)方法

基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制律設(shè)計(jì)方法

2021-06-23 14:59:10

《上海交通大學(xué)學(xué)報(bào)》—基于深度強(qiáng)化學(xué)習(xí)的區(qū)域化視覺導(dǎo)航方法

基于深度強(qiáng)化學(xué)習(xí)的區(qū)域化視覺導(dǎo)航方法人工智能技術(shù)與咨詢? 本文來自《上海交通大學(xué)學(xué)報(bào) 》，作者李鵬等關(guān)注微信公眾號(hào)：人工智能技術(shù)與咨詢。了解更多咨詢！ ? 在環(huán)境中高效導(dǎo)航是智能行為

2021-11-19 11:03:57

1293

基于圖嵌入的兵棋聯(lián)合作戰(zhàn)態(tài)勢實(shí)體知識(shí)表示學(xué)習(xí)方法

戰(zhàn)態(tài)勢實(shí)體知識(shí)的特點(diǎn),提出一種基于圖嵌入的兵棋聯(lián)合作戰(zhàn)態(tài)勢實(shí)體知識(shí)表示學(xué)習(xí)方法。該方法采用基于元路徑的多層異構(gòu)圖嵌入模型,對(duì)想定場景中的兵棋聯(lián)合作戰(zhàn)態(tài)勢實(shí)體及其關(guān)系知識(shí)進(jìn)行表示學(xué)習(xí),將其映射為連續(xù)向量空間中的稠密實(shí)值

2022-01-11 08:34:32

1303

《自動(dòng)化學(xué)報(bào)》—多Agent深度強(qiáng)化學(xué)習(xí)綜述

突破.由于融合了深度學(xué)習(xí)強(qiáng)大的表征能力和強(qiáng)化學(xué)習(xí)有效的策略搜索能力,深度強(qiáng)化學(xué)習(xí)已經(jīng)成為實(shí)現(xiàn)人工智能頗有前景的學(xué)習(xí)范式.然而,深度強(qiáng)化學(xué)習(xí)在多Agent 系統(tǒng)的研究與應(yīng)用中,仍存在諸多困難和挑戰(zhàn),以StarCraft II 為代表的部分觀測環(huán)境下的多Agent學(xué)習(xí)仍然很難達(dá)到理想效果.本文簡要介紹了深度Q

2022-01-18 10:08:01

2300

融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)方法綜述

融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)方法綜述來源：《系統(tǒng)工程與電子技術(shù)》，作者潘崇煜等摘要:?深度學(xué)習(xí)模型嚴(yán)重依賴于大量人工標(biāo)注的數(shù)據(jù)，使得其在數(shù)據(jù)缺乏的特殊領(lǐng)域內(nèi)應(yīng)用嚴(yán)重受限。面對(duì)數(shù)據(jù)缺乏

2022-02-09 11:22:37

3057

世界模型在實(shí)體機(jī)器人上能發(fā)揮多大的作用？

Dreamer 世界模型是谷歌、多倫多大學(xué)等機(jī)構(gòu)在 2021 年提出的一種。如下圖 2 所示，Dreamer 從過去經(jīng)驗(yàn)的回放緩存中學(xué)習(xí)世界模型，從世界模型的潛在空間中想象的 rollout 中學(xué)習(xí)

2022-07-01 10:48:14

1682

基于優(yōu)化的元學(xué)習(xí)方法

為了解決上述問題，本文將目光從任務(wù)專用的soft prompt模型設(shè)計(jì)轉(zhuǎn)移到任務(wù)通用的模型參數(shù)初始化點(diǎn)搜索，以幫助模型快速適應(yīng)到不同的少標(biāo)注任務(wù)上。本文采用近年提出的基于優(yōu)化的元學(xué)習(xí)方法，例如MAML[4]、Reptile[5]等

2022-12-15 15:19:30

1952

強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)和6種基本算法解釋

來源：DeepHub IMBA 強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)和概念簡介（無模型、在線學(xué)習(xí)、離線強(qiáng)化學(xué)習(xí)等）機(jī)器學(xué)習(xí)(ML)分為三個(gè)分支:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。監(jiān)督學(xué)習(xí)(SL) ：關(guān)注在給

2022-12-20 14:00:02

1683

基于交通世界模型優(yōu)化的的交通信號(hào)控制

本文使用車輛位置圖像描述路口交通狀態(tài)，同時(shí)受基于模型的強(qiáng)化學(xué)習(xí)方法DreamerV2的啟發(fā)，引入基于學(xué)習(xí)的交通世界模型。

2023-01-11 14:59:51

875

徹底改變算法交易：強(qiáng)化學(xué)習(xí)的力量

強(qiáng)化學(xué)習(xí)（RL）是人工智能的一個(gè)子領(lǐng)域，專注于決策過程。與其他形式的機(jī)器學(xué)習(xí)相比，強(qiáng)化學(xué)習(xí)模型通過與環(huán)境交互并以獎(jiǎng)勵(lì)或懲罰的形式接收反饋來學(xué)習(xí)。

2023-06-09 09:23:23

930

ICLR 2023 Spotlight｜節(jié)省95%訓(xùn)練開銷，清華黃隆波團(tuán)隊(duì)提出強(qiáng)化學(xué)習(xí)專用稀疏訓(xùn)練框架RLx2

大模型時(shí)代，模型壓縮和加速顯得尤為重要。傳統(tǒng)監(jiān)督學(xué)習(xí)可通過稀疏神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)模型壓縮和加速，那么同樣需要大量計(jì)算開銷的強(qiáng)化學(xué)習(xí)任務(wù)可以基于稀疏網(wǎng)絡(luò)進(jìn)行訓(xùn)練嗎？本文提出了一種強(qiáng)化學(xué)習(xí)專用稀疏訓(xùn)練框架

2023-06-11 21:40:02

1325

強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)和6種基本算法解釋

來源：DeepHubIMBA強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)和概念簡介（無模型、在線學(xué)習(xí)、離線強(qiáng)化學(xué)習(xí)等）機(jī)器學(xué)習(xí)(ML)分為三個(gè)分支:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。監(jiān)督學(xué)習(xí)(SL)：關(guān)注在給定標(biāo)記訓(xùn)練數(shù)據(jù)

2023-01-05 14:54:05

1714

聯(lián)合學(xué)習(xí)在傳統(tǒng)機(jī)器學(xué)習(xí)方法中的應(yīng)用

聯(lián)合學(xué)習(xí)在傳統(tǒng)機(jī)器學(xué)習(xí)方法中的應(yīng)用

2023-07-05 16:30:28

1366

基于強(qiáng)化學(xué)習(xí)的目標(biāo)檢測算法案例

摘要：基于強(qiáng)化學(xué)習(xí)的目標(biāo)檢測算法在檢測過程中通常采用預(yù)定義搜索行為，其產(chǎn)生的候選區(qū)域形狀和尺寸變化單一，導(dǎo)致目標(biāo)檢測精確度較低。為此，在基于深度強(qiáng)化學(xué)習(xí)的視覺目標(biāo)檢測算法基礎(chǔ)上，提出聯(lián)合回歸與深度

2023-07-19 14:35:02

語言模型做先驗(yàn)，統(tǒng)一強(qiáng)化學(xué)習(xí)智能體，DeepMind選擇走這條通用AI之路

在智能體的開發(fā)中，強(qiáng)化學(xué)習(xí)與大語言模型、視覺語言模型等基礎(chǔ)模型的進(jìn)一步融合究竟能擦出怎樣的火花？谷歌 DeepMind 給了我們新的答案。一直以來，DeepMind 引領(lǐng)了強(qiáng)化學(xué)習(xí)（RL）智能體

2023-07-24 16:55:02

1293

NeurIPS 2023 | 擴(kuò)散模型解決多任務(wù)強(qiáng)化學(xué)習(xí)問題

擴(kuò)散模型（diffusion model）在 CV 領(lǐng)域甚至 NLP 領(lǐng)域都已經(jīng)有了令人印象深刻的表現(xiàn)。最近的一些工作開始將 diffusion model 用于強(qiáng)化學(xué)習(xí)（RL）中來解決序列決策問題

2023-10-02 10:45:02

1713

什么是強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的方式之一，它與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列，是三種機(jī)器學(xué)習(xí)訓(xùn)練方法之一。在圍棋上擊敗世界第一李世石的 AlphaGo、在《星際爭霸2》中以 10：1 擊敗了人類頂級(jí)職業(yè)玩家

2023-10-30 11:36:40

5374

谷歌提出大規(guī)模ICL方法

谷歌DeepMind團(tuán)隊(duì)近日取得了一項(xiàng)突破性的研究成果。他們提出了強(qiáng)化和無監(jiān)督兩種新型的ICL（In-Context Learning）學(xué)習(xí)方法，這一創(chuàng)新技術(shù)能夠在多個(gè)領(lǐng)域顯著提升模型的性能。

2024-05-14 14:17:46

839

通過強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

更快更好地學(xué)習(xí)。我們的想法是找到最優(yōu)數(shù)量的特征和最有意義的特征。在本文中，我們將介紹并實(shí)現(xiàn)一種新的通過強(qiáng)化學(xué)習(xí)策略的特征選擇。我們先討論強(qiáng)化學(xué)習(xí)，尤其是馬爾可夫決策

2024-06-05 08:27:46

971

谷歌AlphaChip強(qiáng)化學(xué)習(xí)工具發(fā)布，聯(lián)發(fā)科天璣芯片率先采用

近日，谷歌在芯片設(shè)計(jì)領(lǐng)域取得了重要突破，詳細(xì)介紹了其用于芯片設(shè)計(jì)布局的強(qiáng)化學(xué)習(xí)方法，并將該模型命名為“AlphaChip”。據(jù)悉，AlphaChip有望顯著加速芯片布局規(guī)劃的設(shè)計(jì)流程，并幫助芯片在性能、功耗和面積方面實(shí)現(xiàn)更優(yōu)表現(xiàn)。

2024-09-30 16:16:19

968

如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)（Reinforcement Learning, RL）是一種機(jī)器學(xué)習(xí)方法，它通過與環(huán)境的交互來學(xué)習(xí)如何做出決策，以最大化累積獎(jiǎng)勵(lì)。PyTorch 是一個(gè)流行的開源機(jī)器學(xué)習(xí)庫，它提供了靈活

2024-11-05 17:34:28

1519

18個(gè)常用的強(qiáng)化學(xué)習(xí)算法整理：從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

本來轉(zhuǎn)自：DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級(jí)技術(shù)（如PPO、A3C、PlaNet等）的實(shí)現(xiàn)原理與編碼過程，旨在通過理論結(jié)合代碼的方式，構(gòu)建對(duì)強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容

2025-04-23 13:22:04

1417

已全部加載完成

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

谷歌和DeepMind研究人員合作提出新的強(qiáng)化學(xué)習(xí)方法Dreamer 可利用世界模型實(shí)現(xiàn)高效的行為學(xué)習(xí)

評(píng)論