91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種利用任何形式的先驗策略來改進(jìn)初始化強(qiáng)化學(xué)習(xí)任務(wù)的探索的方法

倩倩 ? 來源:AI前線 ? 作者:谷歌 AI ? 2022-09-06 14:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

強(qiáng)化學(xué)習(xí)可以用于訓(xùn)練一種策略,使其能夠在試錯的情況下來完成任務(wù),但強(qiáng)化學(xué)習(xí)面臨的最大挑戰(zhàn)就是,如何在具有艱難探索挑戰(zhàn)的環(huán)境中從頭學(xué)習(xí)策略。比如,考慮到 adroit manipulation 套件中的 door-binary-v0 環(huán)境所描述的設(shè)置,其中強(qiáng)化學(xué)習(xí)智能體必須在三維空間中控制一只手來打開放在它前面的門。

由于智能體沒有收到任何中間獎勵,它無法衡量自己離完成任務(wù)有多遠(yuǎn),所以只能在空間里隨機(jī)探索,直至門被打開為止。鑒于這項任務(wù)所需的時間以及對其進(jìn)行精準(zhǔn)的控制,這種可能性微乎其微。

對于這樣的任務(wù),我們可以通過使用先驗信息來規(guī)避對狀態(tài)空間的隨機(jī)探索。這種先驗信息有助于智能體了解環(huán)境的哪些狀態(tài)是好的,應(yīng)該進(jìn)一步探索。

我們可以利用離線數(shù)據(jù)(即由人類演示者、腳本策略或其他強(qiáng)化學(xué)習(xí)智能體收集的數(shù)據(jù)),對策略進(jìn)行訓(xùn)練,并將之用于初始化新的強(qiáng)化學(xué)習(xí)策略。如果采用神經(jīng)網(wǎng)絡(luò)來表達(dá)策略,則需要將預(yù)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)復(fù)制到新的強(qiáng)化學(xué)習(xí)策略中。這一過程使得新的強(qiáng)化學(xué)習(xí)策略看起來就像是預(yù)訓(xùn)練好的。但是,用這種幼稚的方式來進(jìn)行新的強(qiáng)化學(xué)習(xí)通常是行不通的,尤其是基于值的強(qiáng)化學(xué)習(xí)方法,如下所示。

7ca49590-2da6-11ed-ba43-dac502259ad0.jpg

用離線數(shù)據(jù)在 antmaze-large-diverse-v0 D4RL 環(huán)境中對一種策略進(jìn)行預(yù)訓(xùn)練(負(fù)向步驟對應(yīng)預(yù)訓(xùn)練)。然后,我們使用該策略來初始化 actor-crittic 的微調(diào)(從第 0 步開始的正向步驟),以該預(yù)訓(xùn)練的策略作為初始 actor。crittic 是隨機(jī)初始化的。由于未經(jīng)訓(xùn)練的 critic 提供了一個糟糕的學(xué)習(xí)信號,并導(dǎo)致良好的初始策略被遺忘,所以 actor 的性能會立即下降,并且不會恢復(fù)。

有鑒于此,我們在“跳躍式強(qiáng)化學(xué)習(xí)”(Jump-Start Reinforcement Learning,JSRL)中,提出了一種可以利用任意一種與現(xiàn)存在的策略對任意一種強(qiáng)化學(xué)習(xí)算法進(jìn)行初始化的元算法。

JSRL 在學(xué)習(xí)任務(wù)時采用了兩種策略:一種是指導(dǎo)策略,另一種是探索策略。探索策略是一種強(qiáng)化學(xué)習(xí)策略,通過智能體從環(huán)境中收集的新經(jīng)驗進(jìn)行在線訓(xùn)練,而指導(dǎo)策略是一種預(yù)先存在的任何形式的策略,在在線訓(xùn)練中不被更新。在這項研究中,我們關(guān)注的是指導(dǎo)策略從演示中學(xué)習(xí)的情景,但也可以使用許多其他類型的指導(dǎo)策略。JSRL 通過滾動指導(dǎo)策略創(chuàng)建了一個學(xué)習(xí)課程,然后由自我改進(jìn)的探索策略跟進(jìn),其結(jié)果是與競爭性的 IL+RL 方法相比較或改進(jìn)的性能。

JSRL 方法

指導(dǎo)策略可以采取任何形式:它可以是一種腳本化的策略,一種用于強(qiáng)化學(xué)習(xí)訓(xùn)練的策略,甚至是一個真人演示者。唯一的要求是,指導(dǎo)策略要合理(也就是優(yōu)于隨機(jī)探索),而且可以根據(jù)對環(huán)境的觀察來選擇行動。理想情況下,指導(dǎo)策略可以在環(huán)境中達(dá)到較差或中等的性能,但不能通過額外的微調(diào)來進(jìn)一步改善自己。然后,JSRL 允許我們利用這個指導(dǎo)策略的進(jìn)展,從而提到它的性能。

在訓(xùn)練開始時,我們將指導(dǎo)策略推出一個固定的步驟,使智能體更接近目標(biāo)狀態(tài)。然后,探索策略接手,繼續(xù)在環(huán)境中行動以達(dá)到這些目標(biāo)。隨著探索策略性能的提高,我們逐漸減少指導(dǎo)策略的步驟,直到探索策略完全接管。這個過程為探索策略創(chuàng)建了一個起始狀態(tài)的課程,這樣在每個課程階段,它只需要學(xué)習(xí)達(dá)到之前課程階段的初始狀態(tài)。

這個任務(wù)是讓機(jī)械臂拿起藍(lán)色木塊。指導(dǎo)策略可以將機(jī)械臂移動到木塊上,但不能將其拾起。它控制智能體,直到它抓住木塊,然后由探索策略接管,最終學(xué)會拿起木塊。隨著探索策略的改進(jìn),指導(dǎo)策略對智能體的控制越來越少。

與 IL+RL 基線的比較

由于 JSRL 可以使用先前的策略來初始化強(qiáng)化學(xué)習(xí),一個自然的比較是模仿和強(qiáng)化學(xué)習(xí)(IL+RL)方法,該方法在離線數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后用新的在線經(jīng)驗對預(yù)訓(xùn)練的策略進(jìn)行微調(diào)。我們展示了 JSRL 在 D4RL 基準(zhǔn)任務(wù)上與具有競爭力的 IL+RL 方法的比較情況。這些任務(wù)包括模擬機(jī)器人控制環(huán)境,以及來自人類演示者的離線數(shù)據(jù)集、計劃者和其他學(xué)到的策略。在 D4RL 任務(wù)中,我們重點關(guān)注困難的螞蟻迷宮和 adroit dexterous manipulation 環(huán)境。

7cbf5b14-2da6-11ed-ba43-dac502259ad0.jpg

對于每個實驗,我們在一個離線數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后運行在線微調(diào)。我們與專門為每個環(huán)境設(shè)計的算法進(jìn)行比較,這些算法包括 AWAC、IQL、CQL 和行為克隆。雖然 JSRL 可以與任何初始指導(dǎo)策略或微調(diào)算法結(jié)合使用,但我們使用我們最強(qiáng)大的基線——IQL,作為預(yù)訓(xùn)練的指導(dǎo)和微調(diào)。完整的 D4RL 數(shù)據(jù)集包括每個螞蟻迷宮任務(wù)的一百萬個離線轉(zhuǎn)換。每個轉(zhuǎn)換是一個格式序列(S, A, R, S'),它指定了智能體開始時的狀態(tài)(S),智能體采取的行動(A),智能體收到的獎勵(R),以及智能體在采取行動 A 后結(jié)束的狀態(tài)(S')。

7cdc6a10-2da6-11ed-ba43-dac502259ad0.jpg

7cf95134-2da6-11ed-ba43-dac502259ad0.jpg

在 D4RL 基準(zhǔn)套件的 antmaze-medium-diverse-v0 環(huán)境中的平均得分(最大值 =100)。即使在有限的離線轉(zhuǎn)換的情況下,JSRL 也可以改進(jìn)。

基于視覺的機(jī)器人任務(wù)

由于維度的限制,在復(fù)雜的任務(wù)中使用離線數(shù)據(jù)特別困難,比如基于視覺的機(jī)器人操縱。連續(xù)控制動作空間和基于像素的狀態(tài)空間的高維度,給 IL+RL 方法帶來了學(xué)習(xí)良好策略所需的數(shù)據(jù)量方面的擴(kuò)展挑戰(zhàn)。為了研究 JSRL 如何適應(yīng)這種環(huán)境,我們重點研究了兩個困難的仿生機(jī)器人操縱任務(wù):無差別抓?。矗e起任何物體)和實例抓?。矗e起特定的目標(biāo)物體)。

7d1396d4-2da6-11ed-ba43-dac502259ad0.jpg

一個仿生機(jī)械臂被放置在一張有各種類別物體的桌子前。當(dāng)機(jī)械臂舉起任何物體時,對于無差別的抓取任務(wù),會給予稀疏的獎勵。對于實例抓取任務(wù),只有在抓取特定的目標(biāo)物體時,才會給予稀疏的獎勵。

我們將 JSRL 與能夠擴(kuò)展到復(fù)雜的基于視覺的機(jī)器人環(huán)境的方法進(jìn)行比較,如 QT-Opt 和 AW-Opt。每種方法都可以獲得相同的成功演示的離線數(shù)據(jù)集,并被允許運行多達(dá) 10 萬步的在線微調(diào)。

在這些實驗中,我們使用行為克隆作為指導(dǎo)策略,并將 JSRL 與 QT-Opt 相結(jié)合進(jìn)行微調(diào)。QT-Opt+JSRL 的組合比其他所有方法改進(jìn)得更快,同時獲得了最高的成功率。

7d26259c-2da6-11ed-ba43-dac502259ad0.jpg

7d3ccca2-2da6-11ed-ba43-dac502259ad0.jpg

使用 2 千次成功演示,無差別和實例抓取環(huán)境的平均抓取成功率。

結(jié)語

我們提出了 JSRL,它是一種利用任何形式的先驗策略來改進(jìn)初始化強(qiáng)化學(xué)習(xí)任務(wù)的探索的方法。我們的算法通過在預(yù)先存在的指導(dǎo)策略中滾動,創(chuàng)建了一個學(xué)習(xí)課程,然后由自我改進(jìn)的探索策略跟進(jìn)。探索策略的工作被大大簡化,因為它從更接近目標(biāo)的狀態(tài)開始探索。隨著探索策略的改進(jìn),指導(dǎo)策略的影響也隨之減弱,從而形成一個完全有能力的強(qiáng)化學(xué)習(xí)策略。在未來,我們計劃將 JSRL 應(yīng)用于 Sim2Real 等問題,并探索我們?nèi)绾卫枚喾N指導(dǎo)策略來訓(xùn)練強(qiáng)化學(xué)習(xí)智能體。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:如何使用先驗策略有效地初始化強(qiáng)化學(xué)習(xí)?

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    自動駕駛中常提的離線強(qiáng)化學(xué)習(xí)是什么?

    ,圖片源自:網(wǎng)絡(luò) 但強(qiáng)化學(xué)習(xí)本身是需要不斷試錯的,如果采用這種學(xué)習(xí)方式在真實道路中不斷嘗試,定會導(dǎo)致不可控的事故。于是就有人提出一種猜測,能不能
    的頭像 發(fā)表于 02-07 09:21 ?276次閱讀
    自動駕駛中常提的離線<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>是什么?

    PC強(qiáng)實時運動控制():C#的EtherCAT總線初始化(下)

    通過使用配置工具導(dǎo)出ZAR文件進(jìn)行EtherCAT總線初始化
    的頭像 發(fā)表于 02-05 10:00 ?1586次閱讀
    PC強(qiáng)實時運動控制(<b class='flag-5'>一</b>):C#的EtherCAT總線<b class='flag-5'>初始化</b>(下)

    強(qiáng)化學(xué)習(xí)會讓自動駕駛模型學(xué)習(xí)更快嗎?

    一種讓機(jī)器通過“試錯”學(xué)會決策的辦法。與監(jiān)督學(xué)習(xí)不同,監(jiān)督學(xué)習(xí)是有人提供示范答案,讓模型去模仿;而強(qiáng)化學(xué)習(xí)不會把每步的“正確答案”都告訴
    的頭像 發(fā)表于 01-31 09:34 ?735次閱讀
    <b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>會讓自動駕駛模型<b class='flag-5'>學(xué)習(xí)</b>更快嗎?

    MCU工程初始化,到底該不該交給工具?

    背景 工程初始化重復(fù)性高,但出錯成本大。工程師常問:交給工具是不是會丟失掌控? 工具可做的事 時鐘樹、引腳復(fù)用、外設(shè)配置 工程生成、代碼模板套用 參數(shù)校驗和約束檢查 工程師仍需做的事 特殊業(yè)務(wù)邏輯
    的頭像 發(fā)表于 01-29 10:18 ?196次閱讀
    MCU工程<b class='flag-5'>初始化</b>,到底該不該交給工具?

    多智能體強(qiáng)化學(xué)習(xí)(MARL)核心概念與算法概覽

    訓(xùn)練單個RL智能體的過程非常簡單,那么我們現(xiàn)在換個場景,同時訓(xùn)練五個智能體,而且每個都有自己的目標(biāo)、只能看到部分信息,還能互相幫忙。這就是多智能體強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 01-21 16:21 ?246次閱讀
    多智能體<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>(MARL)核心概念與算法概覽

    EtherCAT總線初始化步驟

    EtherCAT(Ethernet for Control Automation Technology)是一種高性能的工業(yè)以太網(wǎng)通信協(xié)議,廣泛應(yīng)用于工業(yè)自動領(lǐng)域。其初始化過程是確保系統(tǒng)穩(wěn)定運行
    的頭像 發(fā)表于 12-22 10:10 ?731次閱讀
    EtherCAT總線<b class='flag-5'>初始化</b>步驟

    串口通信基石:Air8000下Modbus RTU串口初始化詳解!

    的RTU通信搭建牢固無憂。 、MODBUS 概述 Modbus 是一種廣泛應(yīng)用于工業(yè)自動領(lǐng)域的串行通信協(xié)議,由 Modicon 公司(現(xiàn)為施耐德電氣旗下)于 1979 年推出,主要用于可編程邏輯控制器(PLC)與工業(yè)設(shè)備之間
    的頭像 發(fā)表于 10-28 16:33 ?1702次閱讀
    串口通信基石:Air8000下Modbus RTU串口<b class='flag-5'>初始化</b>詳解!

    自動駕駛中常提的“強(qiáng)化學(xué)習(xí)”是個啥?

    下,就是個智能體在環(huán)境里行動,它能觀察到環(huán)境的些信息,并做出個動作,然后環(huán)境會給出個反饋(獎勵或懲罰),智能體的目標(biāo)是把長期得到的獎勵累積到最大。和監(jiān)督
    的頭像 發(fā)表于 10-23 09:00 ?767次閱讀
    自動駕駛中常提的“<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>”是個啥?

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+化學(xué)或生物方法實現(xiàn)AI

    的憶阻器、MAC計算單元及存儲器 可以利用液體的流體力學(xué)特征做個納米級微流體系統(tǒng),用水柱實現(xiàn)邏輯門。 ①用有機(jī)聚合物溶液實現(xiàn)互連、憶阻器和神經(jīng)網(wǎng)絡(luò) 有機(jī)聚合物計算通常被歸類為化學(xué)
    發(fā)表于 09-15 17:29

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的未來:提升算力還是智力

    、浪費資源與破壞環(huán)境 二、用小模型代替大模型 1、強(qiáng)化學(xué)習(xí) 2、指令調(diào)整 3、合成數(shù)據(jù) 三、終身學(xué)習(xí)與遷移學(xué)習(xí) 1、終身學(xué)習(xí) 終身學(xué)習(xí)
    發(fā)表于 09-14 14:04

    GraniStudio:初始化例程

    說明 通過初始化運控板卡算子連接格拉尼總線型運控卡,導(dǎo)入工程自動進(jìn)行連接,此算子為使用運控控制板卡的第項操作,后續(xù)運控算子需引用其輸出板卡對象才可使用。 3.異常處理 當(dāng)手動執(zhí)行初始化運控板卡算子出現(xiàn)錯誤時: 查看總線卡與驅(qū)動
    的頭像 發(fā)表于 08-22 16:45 ?965次閱讀
    GraniStudio:<b class='flag-5'>初始化</b>例程

    定義IO初始化結(jié)構(gòu)體

    由上述IOPORT相關(guān)功能的枚舉類型我們可以知道,在對IOPORT模塊進(jìn)行初始化時需要根據(jù)情況配置它們。因此我們定義個IOPORT初始化的結(jié)構(gòu)體類型IOPORT_Init_t,它的成員包括了由上述所有枚舉類型所聲明的變量,因此
    的頭像 發(fā)表于 07-16 16:26 ?1470次閱讀

    IM 系列設(shè)備過載保護(hù)機(jī)制下界面初始化中斷的底層邏輯與解決方案

    、過載保護(hù)機(jī)制與界面初始化的關(guān)聯(lián)基礎(chǔ) IM 系列設(shè)備的過載保護(hù)機(jī)制是保障設(shè)備安全運行的核心功能,其通過傳感器實時采集設(shè)備運行參數(shù),如電流、電壓、溫度、系統(tǒng)資源占用率等。旦這些參數(shù)超出預(yù)設(shè)閾值
    的頭像 發(fā)表于 06-27 09:58 ?618次閱讀

    使用MATLAB進(jìn)行無監(jiān)督學(xué)習(xí)

    無監(jiān)督學(xué)習(xí)一種根據(jù)未標(biāo)注數(shù)據(jù)進(jìn)行推斷的機(jī)器學(xué)習(xí)方法。無監(jiān)督學(xué)習(xí)旨在識別數(shù)據(jù)中隱藏的模式和關(guān)系,無需任何監(jiān)督或關(guān)于結(jié)果的
    的頭像 發(fā)表于 05-16 14:48 ?1518次閱讀
    使用MATLAB進(jìn)行無監(jiān)督<b class='flag-5'>學(xué)習(xí)</b>

    18個常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級模型的理論技術(shù)與代碼實現(xiàn)

    本來轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級技術(shù)(如PPO、A3C、PlaNet等)的實現(xiàn)原理與編碼過程,旨在通過理論結(jié)合代碼的方式,構(gòu)建對強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?1686次閱讀
    18個常用的<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法整理:從基礎(chǔ)<b class='flag-5'>方法</b>到高級模型的理論技術(shù)與代碼實現(xiàn)