91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用PyTorch實現(xiàn)了基本的RL算法

DPVg_AI_era ? 來源:lq ? 2019-06-07 15:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天和大家分享Reddit上的一個熱帖,樓主用PyTorch實現(xiàn)了基本的RL算法,而且每個算法都在一個文件夾中完成,即使沒有GPU,每個算法也可以在30秒內(nèi)完成訓練。

近日,有開發(fā)人員用PyTorch實現(xiàn)了基本的RL算法,比如REINFORCE, vanilla actor-critic, DDPG, A3C, DQN 和PPO。這個帖子在Reddit論壇上獲得了195個贊并引發(fā)了熱議,一起來看一下吧。

特點如下:

每個算法都在一個文件中完成。

每個算法的長度可達100~150行代碼。

即使沒有GPU,每個算法也可以在30秒內(nèi)完成訓練。

Envs固定在“CartPole-v1”上,你只需關(guān)注執(zhí)行。

minimalRL-pytorch算法:

1. REINFORCE(66行)

2. TD Actor-Critic(97行)

3. DQN(113行,包括重放內(nèi)存和目標網(wǎng)絡(luò))

4. PPO(116行,包括GAE)

5. DDPG(149行,包括OU噪聲和軟目標更新)

6. A3C(116行)

7. 有什么建議嗎?

依賴配置:

1. PyTorch

2. OpenAI GYM

使用:

# Works only with Python 3.#e.g.python3REINFORCE.pypython3actor_critic.pypython3dqn.pypython3ppo.pypython3ddpg.pypython3 a3c.py

評論中,不少朋友表示了對樓主的認可和感謝:

Dump7留言:“可以!這是我見過的最美的東西之一。我不是一個能用框架編寫NN的人。但我正在努力。這將在很大程度上幫助到我。謝謝你做了這個。但是你能為基本的CNN和RNN制作這樣的單一文件代碼嗎?”

CodeReclaimers表示:“謝謝你分享這個——我知道把代碼簡化到最少是很費事的。特別好的是,你的代碼將依賴配置控制在最低限度。通常都是,我去尋找可以學習的例子,要花至少30多分鐘來收集所有依賴配置,結(jié)果發(fā)現(xiàn)我的平臺上少了一些關(guān)鍵的東西?!?/p>

Reddit上的討論:

https://www.reddit.com/r/MachineLearning/comments/bt8sap/p_implementations_of_basic_rl_algorithms_with/

Github資源:

https://github.com/seungeunrho/minimalRL

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4785

    瀏覽量

    98140
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4971

    瀏覽量

    74037
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    813

    瀏覽量

    14865

原文標題:6行代碼搞定基本的RL算法,速度圍觀Reddit高贊帖

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    PyTorch 中RuntimeError分析

    原生實現(xiàn)。這是一個已知的 PyTorch 限制,常見于 Stable Diffusion、ComfyUI 等使用 interpolate(..., mode=\'nearest\') 的模型中
    發(fā)表于 03-06 06:02

    Pytorch 與 Visionfive2 兼容嗎?

    Pytorch 與 Visionfive2 兼容嗎? $ pip3 install torch torchvision torchaudio --index-url https
    發(fā)表于 02-06 08:28

    PID控制的算法

    語言實現(xiàn)二 PID算法的離散化上一節(jié)中,我論述PID算法的基本形式,并對其控制過程的實現(xiàn)
    發(fā)表于 01-23 08:18

    SM4算法實現(xiàn)分享(一)算法原理

    ,Xi、Yi、rki為字,i=0,1,2,…,31。則本算法的加密實現(xiàn)為: 本算法的解密實現(xiàn)與加密實現(xiàn)結(jié)構(gòu)是相同的,不同的只是提供的輪
    發(fā)表于 10-30 08:10

    復雜的軟件算法硬件IP核的實現(xiàn)

    具體方法與步驟 通過 C 語言實現(xiàn)軟件算法,并驗證算法的有效性以后,就可以進行算法的 HDL 轉(zhuǎn)化工作了。通過使用 Altium Des
    發(fā)表于 10-30 07:02

    TCORDIC算法實現(xiàn)正余弦函數(shù)

    TCORDIC算法,由低延遲CORDIC算法和Taylor展開組成。Taylor展開計算作為CORDIC算法的補充,能夠結(jié)合CORDIC算法和Taylor展開方式來計算浮點正余弦函數(shù),
    發(fā)表于 10-29 06:30

    查找表與多項式近似算法實現(xiàn)初等函數(shù)

    逼近的定義區(qū)間長度及選取系數(shù)的方式?jīng)Q定。 每個子間隔的系數(shù)存儲在查找表中。Xm來選擇系數(shù),所以方程變成: 使用查找表與多項式近似結(jié)合算法實現(xiàn)對數(shù)函數(shù),如下圖所示為指數(shù)函數(shù)的流水線結(jié)構(gòu): 下圖為仿真結(jié)果:
    發(fā)表于 10-28 08:10

    數(shù)據(jù)濾波算法的具體實現(xiàn)步驟是怎樣的?

    ? 數(shù)據(jù)濾波算法在電能質(zhì)量在線監(jiān)測裝置中的具體實現(xiàn),需圍繞 “ 數(shù)據(jù)采集→預處理→算法執(zhí)行→參數(shù)適配→效果驗證→結(jié)果輸出 ” 的全流程展開,核心是結(jié)合裝置硬件特性(采樣率、ADC 精度)和干擾類型
    的頭像 發(fā)表于 10-10 16:45 ?846次閱讀

    CW32L012實現(xiàn)外部flash下載算法

    外部flash或者內(nèi)置的片上flash,都是編譯器通過調(diào)用寫好的FLM文件來實現(xiàn)下載,單片機內(nèi)部的安裝pack包就會有(官方實現(xiàn)),外部flash的情況比較復雜,例如用的哪種flash,的什么接口,都是不定的,沒有辦法寫好一個
    的頭像 發(fā)表于 10-09 17:38 ?1674次閱讀
    CW32L012<b class='flag-5'>實現(xiàn)</b>外部flash下載<b class='flag-5'>算法</b>

    基于FPGA實現(xiàn)FOC算法之PWM模塊設(shè)計

    哈嘍,大家好,從今天開始正式帶領(lǐng)大家從零到一,在FPGA平臺上實現(xiàn)FOC算法,整個算法的框架如下圖所示,如果大家對算法的原理不是特別清楚的話,可以先去百度上學習一下,本教程著重介紹
    的頭像 發(fā)表于 07-17 15:21 ?3531次閱讀
    基于FPGA<b class='flag-5'>實現(xiàn)</b>FOC<b class='flag-5'>算法</b>之PWM模塊設(shè)計

    基于Matlab與FPGA的雙邊濾波算法實現(xiàn)

    前面發(fā)過中值、均值、高斯濾波的文章,這些只考慮位置,并沒有考慮相似度。那么雙邊濾波來了,既考慮位置,有考慮相似度,對邊緣的保持比前幾個好很多,當然實現(xiàn)上也是復雜很多。本文將從原理
    的頭像 發(fā)表于 07-10 11:28 ?4611次閱讀
    基于Matlab與FPGA的雙邊濾波<b class='flag-5'>算法</b><b class='flag-5'>實現(xiàn)</b>

    基于FPGA的壓縮算法加速實現(xiàn)

    本設(shè)計中,計劃實現(xiàn)對文件的壓縮及解壓,同時優(yōu)化壓縮中所涉及的信號處理和計算密集型功能,實現(xiàn)對其的加速處理。本設(shè)計的最終目標是證明在充分并行化的硬件體系結(jié)構(gòu) FPGA 上實現(xiàn)算法時,可
    的頭像 發(fā)表于 07-10 11:09 ?2417次閱讀
    基于FPGA的壓縮<b class='flag-5'>算法</b>加速<b class='flag-5'>實現(xiàn)</b>

    FT232RL USB 轉(zhuǎn)串口工業(yè)級替代方案DT232RL公司產(chǎn)品競爭力直線提升

    DT232RL的成本與技術(shù)雙突破 摘要 面對進口FT232RL芯片的高成本與供貨風險,本文驗證國產(chǎn)DT232RL方案的工業(yè)級替代可行性。實測表明,該方案較國內(nèi)同類產(chǎn)品單一個串口芯片成
    的頭像 發(fā)表于 07-03 17:00 ?803次閱讀

    如何在VS Code中使用瑞薩RL78系列MCU

    RL78家族系列MCU,以其業(yè)界領(lǐng)先的低功耗和各種內(nèi)置的高性能外圍功能,極大地提高了電源效率,降低了BOM成本,實現(xiàn)設(shè)備的小型化。
    的頭像 發(fā)表于 04-23 13:49 ?4262次閱讀
    如何在VS Code中使用瑞薩<b class='flag-5'>RL</b>78系列MCU

    18個常用的強化學習算法整理:從基礎(chǔ)方法到高級模型的理論技術(shù)與代碼實現(xiàn)

    易于理解和實踐,全部代碼均在JupyterNotebook環(huán)境中實現(xiàn),僅依賴基礎(chǔ)庫進行算法構(gòu)建。代碼庫組織結(jié)構(gòu)如下:├──1_simple_rl.ipynb├──
    的頭像 發(fā)表于 04-23 13:22 ?1638次閱讀
    18個常用的強化學習<b class='flag-5'>算法</b>整理:從基礎(chǔ)方法到高級模型的理論技術(shù)與代碼<b class='flag-5'>實現(xiàn)</b>