成人黄色一级录像,免费的,日本毛片高清免费视频

強(qiáng)化學(xué)習(xí)可以用于訓(xùn)練一種策略，使其能夠在試錯的情況下來完成任務(wù)，但強(qiáng)化學(xué)習(xí)面臨的最大挑戰(zhàn)就是，如何在具有艱難探索挑戰(zhàn)的環(huán)境中從頭學(xué)習(xí)策略。比如，考慮到 adroit manipulation 套件中的 door-binary-v0 環(huán)境所描述的設(shè)置，其中強(qiáng)化學(xué)習(xí)智能體必須在三維空間中控制一只手來打開放在它前面的門。

由于智能體沒有收到任何中間獎勵，它無法衡量自己離完成任務(wù)有多遠(yuǎn)，所以只能在空間里隨機(jī)探索，直至門被打開為止。鑒于這項任務(wù)所需的時間以及對其進(jìn)行精準(zhǔn)的控制，這種可能性微乎其微。

對于這樣的任務(wù)，我們可以通過使用先驗信息來規(guī)避對狀態(tài)空間的隨機(jī)探索。這種先驗信息有助于智能體了解環(huán)境的哪些狀態(tài)是好的，應(yīng)該進(jìn)一步探索。

我們可以利用離線數(shù)據(jù)（即由人類演示者、腳本策略或其他強(qiáng)化學(xué)習(xí)智能體收集的數(shù)據(jù)），對策略進(jìn)行訓(xùn)練，并將之用于初始化新的強(qiáng)化學(xué)習(xí)策略。如果采用神經(jīng)網(wǎng)絡(luò)來表達(dá)策略，則需要將預(yù)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)復(fù)制到新的強(qiáng)化學(xué)習(xí)策略中。這一過程使得新的強(qiáng)化學(xué)習(xí)策略看起來就像是預(yù)訓(xùn)練好的。但是，用這種幼稚的方式來進(jìn)行新的強(qiáng)化學(xué)習(xí)通常是行不通的，尤其是基于值的強(qiáng)化學(xué)習(xí)方法，如下所示。

用離線數(shù)據(jù)在 antmaze-large-diverse-v0 D4RL 環(huán)境中對一種策略進(jìn)行預(yù)訓(xùn)練（負(fù)向步驟對應(yīng)預(yù)訓(xùn)練）。然后，我們使用該策略來初始化 actor-crittic 的微調(diào)（從第 0 步開始的正向步驟），以該預(yù)訓(xùn)練的策略作為初始 actor。crittic 是隨機(jī)初始化的。由于未經(jīng)訓(xùn)練的 critic 提供了一個糟糕的學(xué)習(xí)信號，并導(dǎo)致良好的初始策略被遺忘，所以 actor 的性能會立即下降，并且不會恢復(fù)。

有鑒于此，我們在“跳躍式強(qiáng)化學(xué)習(xí)”（Jump-Start Reinforcement Learning，JSRL）中，提出了一種可以利用任意一種與現(xiàn)存在的策略對任意一種強(qiáng)化學(xué)習(xí)算法進(jìn)行初始化的元算法。

JSRL 在學(xué)習(xí)任務(wù)時采用了兩種策略：一種是指導(dǎo)策略，另一種是探索策略。探索策略是一種強(qiáng)化學(xué)習(xí)策略，通過智能體從環(huán)境中收集的新經(jīng)驗進(jìn)行在線訓(xùn)練，而指導(dǎo)策略是一種預(yù)先存在的任何形式的策略，在在線訓(xùn)練中不被更新。在這項研究中，我們關(guān)注的是指導(dǎo)策略從演示中學(xué)習(xí)的情景，但也可以使用許多其他類型的指導(dǎo)策略。JSRL 通過滾動指導(dǎo)策略創(chuàng)建了一個學(xué)習(xí)課程，然后由自我改進(jìn)的探索策略跟進(jìn)，其結(jié)果是與競爭性的 IL+RL 方法相比較或改進(jìn)的性能。

JSRL 方法

指導(dǎo)策略可以采取任何形式：它可以是一種腳本化的策略，一種用于強(qiáng)化學(xué)習(xí)訓(xùn)練的策略，甚至是一個真人演示者。唯一的要求是，指導(dǎo)策略要合理（也就是優(yōu)于隨機(jī)探索），而且可以根據(jù)對環(huán)境的觀察來選擇行動。理想情況下，指導(dǎo)策略可以在環(huán)境中達(dá)到較差或中等的性能，但不能通過額外的微調(diào)來進(jìn)一步改善自己。然后，JSRL 允許我們利用這個指導(dǎo)策略的進(jìn)展，從而提到它的性能。

在訓(xùn)練開始時，我們將指導(dǎo)策略推出一個固定的步驟，使智能體更接近目標(biāo)狀態(tài)。然后，探索策略接手，繼續(xù)在環(huán)境中行動以達(dá)到這些目標(biāo)。隨著探索策略性能的提高，我們逐漸減少指導(dǎo)策略的步驟，直到探索策略完全接管。這個過程為探索策略創(chuàng)建了一個起始狀態(tài)的課程，這樣在每個課程階段，它只需要學(xué)習(xí)達(dá)到之前課程階段的初始狀態(tài)。

這個任務(wù)是讓機(jī)械臂拿起藍(lán)色木塊。指導(dǎo)策略可以將機(jī)械臂移動到木塊上，但不能將其拾起。它控制智能體，直到它抓住木塊，然后由探索策略接管，最終學(xué)會拿起木塊。隨著探索策略的改進(jìn)，指導(dǎo)策略對智能體的控制越來越少。

與 IL+RL 基線的比較

由于 JSRL 可以使用先前的策略來初始化強(qiáng)化學(xué)習(xí)，一個自然的比較是模仿和強(qiáng)化學(xué)習(xí)（IL+RL）方法，該方法在離線數(shù)據(jù)集上進(jìn)行訓(xùn)練，然后用新的在線經(jīng)驗對預(yù)訓(xùn)練的策略進(jìn)行微調(diào)。我們展示了 JSRL 在 D4RL 基準(zhǔn)任務(wù)上與具有競爭力的 IL+RL 方法的比較情況。這些任務(wù)包括模擬的機(jī)器人控制環(huán)境，以及來自人類演示者的離線數(shù)據(jù)集、計劃者和其他學(xué)到的策略。在 D4RL 任務(wù)中，我們重點關(guān)注困難的螞蟻迷宮和 adroit dexterous manipulation 環(huán)境。

對于每個實驗，我們在一個離線數(shù)據(jù)集上進(jìn)行訓(xùn)練，然后運行在線微調(diào)。我們與專門為每個環(huán)境設(shè)計的算法進(jìn)行比較，這些算法包括 AWAC、IQL、CQL 和行為克隆。雖然 JSRL 可以與任何初始指導(dǎo)策略或微調(diào)算法結(jié)合使用，但我們使用我們最強(qiáng)大的基線——IQL，作為預(yù)訓(xùn)練的指導(dǎo)和微調(diào)。完整的 D4RL 數(shù)據(jù)集包括每個螞蟻迷宮任務(wù)的一百萬個離線轉(zhuǎn)換。每個轉(zhuǎn)換是一個格式序列（S, A, R, S'），它指定了智能體開始時的狀態(tài)（S），智能體采取的行動（A），智能體收到的獎勵（R），以及智能體在采取行動 A 后結(jié)束的狀態(tài)（S'）。

在 D4RL 基準(zhǔn)套件的 antmaze-medium-diverse-v0 環(huán)境中的平均得分（最大值 =100）。即使在有限的離線轉(zhuǎn)換的情況下，JSRL 也可以改進(jìn)。

基于視覺的機(jī)器人任務(wù)

由于維度的限制，在復(fù)雜的任務(wù)中使用離線數(shù)據(jù)特別困難，比如基于視覺的機(jī)器人操縱。連續(xù)控制動作空間和基于像素的狀態(tài)空間的高維度，給 IL+RL 方法帶來了學(xué)習(xí)良好策略所需的數(shù)據(jù)量方面的擴(kuò)展挑戰(zhàn)。為了研究 JSRL 如何適應(yīng)這種環(huán)境，我們重點研究了兩個困難的仿生機(jī)器人操縱任務(wù)：無差別抓?。矗e起任何物體）和實例抓?。矗e起特定的目標(biāo)物體）。

一個仿生機(jī)械臂被放置在一張有各種類別物體的桌子前。當(dāng)機(jī)械臂舉起任何物體時，對于無差別的抓取任務(wù)，會給予稀疏的獎勵。對于實例抓取任務(wù)，只有在抓取特定的目標(biāo)物體時，才會給予稀疏的獎勵。

我們將 JSRL 與能夠擴(kuò)展到復(fù)雜的基于視覺的機(jī)器人環(huán)境的方法進(jìn)行比較，如 QT-Opt 和 AW-Opt。每種方法都可以獲得相同的成功演示的離線數(shù)據(jù)集，并被允許運行多達(dá) 10 萬步的在線微調(diào)。

在這些實驗中，我們使用行為克隆作為指導(dǎo)策略，并將 JSRL 與 QT-Opt 相結(jié)合進(jìn)行微調(diào)。QT-Opt+JSRL 的組合比其他所有方法改進(jìn)得更快，同時獲得了最高的成功率。

使用 2 千次成功演示，無差別和實例抓取環(huán)境的平均抓取成功率。

結(jié)語

我們提出了 JSRL，它是一種利用任何形式的先驗策略來改進(jìn)初始化強(qiáng)化學(xué)習(xí)任務(wù)的探索的方法。我們的算法通過在預(yù)先存在的指導(dǎo)策略中滾動，創(chuàng)建了一個學(xué)習(xí)課程，然后由自我改進(jìn)的探索策略跟進(jìn)。探索策略的工作被大大簡化，因為它從更接近目標(biāo)的狀態(tài)開始探索。隨著探索策略的改進(jìn)，指導(dǎo)策略的影響也隨之減弱，從而形成一個完全有能力的強(qiáng)化學(xué)習(xí)策略。在未來，我們計劃將 JSRL 應(yīng)用于 Sim2Real 等問題，并探索我們?nèi)绾卫枚喾N指導(dǎo)策略來訓(xùn)練強(qiáng)化學(xué)習(xí)智能體。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4839

瀏覽量
108009
智能體

智能體

+關(guān)注

關(guān)注
1

文章
521

瀏覽量
11625
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
272

瀏覽量
11986