91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Reaver在《星際爭霸 II》各種小型游戲上與其他AI的性能對比

DPVg_AI_era ? 來源:未知 ? 2018-11-29 09:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如果說我們的征途是星辰大海,那么星際爭霸必定是其中一關(guān)。今天,有人在Github開源了他潛心研究一年半的成果,一個新手和資深研究人員都能受益的深度強化學(xué)習(xí)框架,單機運行速度快、方便調(diào)式,支持多種強化學(xué)習(xí)訓(xùn)練環(huán)境。

上周結(jié)束的 AI Challenger 星際爭霸競賽,讓 AI 挑戰(zhàn)星際爭霸這個議題又稍稍火了一把。雖然這屆冠軍使用的仍然是硬編碼方法,但從其他解決方案中不難看出,AI算法的占比在不斷提升。

作為圍棋之后 DeepMind 公開宣布的下一個攻克目標,《星際爭霸》的魅力可見一斑。而隨后不久 DeepMind 便將其相關(guān)研究及平臺開源,更是印證了讓 AI 玩星際爭霸的挑戰(zhàn)。

今天,塔爾圖大學(xué)的 Roman Ring 在 Github 上開源了他傾力投入一年半的成果,一個名叫 Reaver 的《星際爭霸 II》AI,可用于訓(xùn)練《星際爭霸 II》的各種基本任務(wù)。

Reaver 的基本思路是沿著 DeepMind 的路線在走,也即 AI 的玩法是像人類玩家一樣,從游戲畫面中獲取視覺特征,然后再做出決策。

補充說明,Roman 去年本科畢業(yè)項目是使用《Actor-Critic 法復(fù)現(xiàn) DeepMind 星際爭霸 II 強化學(xué)習(xí)基準》[1],Reaver 則是在此基礎(chǔ)上的改善提升。

Reaver 的強項在于比其他開源的同類框架單機運行速度快;除了支持星際爭霸游戲訓(xùn)練環(huán)境 SC2LE,也支持 OpenAI Gym、ATARI 和 MUJOCO;模塊化組成,容易調(diào)試。

根據(jù)作者所說,Reaver 不到10 秒就解決 CartPole-v0,在 4 核 CPU 筆記本上每秒處理 5000 張圖像,使用 Google Colab,Reaver 通關(guān)《星際爭霸 II》SC2LE 小型游戲 MoveToBeacon 只需要半小時的時間。

Reaver 玩《星際爭霸 II》小型游戲 MoveToBeacon 的畫面,左邊是未經(jīng)訓(xùn)練,右邊是訓(xùn)練后的情況。來源:Roman Ring/YouTube

套用一句話,如果我們的征途是星辰大海,那么其中的一關(guān)必然是《星際爭霸》。

Reaver 對于不具備 GPU 集群的人非常友好,正如作者在 Github 庫里介紹所說,

“雖然開發(fā)是研究驅(qū)動的,但 Reaver API 背后的理念類似于《星際爭霸II》游戲本身——新手可以用,領(lǐng)域?qū)<乙材軓闹蝎@得東西。

“對于業(yè)余愛好者而言,只要對 Reaver 稍作修改(例如超參數(shù)),就能得到訓(xùn)練深度強化學(xué)習(xí)智能體的所有必須工具。對于經(jīng)驗豐富的研究人員,Reaver 提供簡單但性能優(yōu)化的代碼庫,而且都是模塊化架構(gòu):智能體、模型和環(huán)境都是分開,并且可以隨意組合調(diào)換。”

歡迎加入星際爭霸強化學(xué)習(xí)陣營。

深度強化學(xué)習(xí)AIReaver:模塊化且便于調(diào)試

性能 大部分已發(fā)表的強化學(xué)習(xí)基準通常針對的都是 MPI 之間 message-based 通信,對于 DeepMind 或者 OpenAI 這樣有大規(guī)模分布式強化學(xué)習(xí)配置的機構(gòu)而言這樣做自然很合理,但對于普通研究者或其他沒有這類強大基礎(chǔ)設(shè)施的人,這就成了很大的瓶頸。因此,Roman Ring 采用了共享內(nèi)存(shared memory)的方法,相比 message-based 并行的解決方案實現(xiàn)了大約 3 倍的速度提升。

模塊化 很多強化學(xué)習(xí)基準都或多或少都是模塊化的,不過這些基準通常與作者使用的訓(xùn)練環(huán)境密切相關(guān)。Roman Ring 自己就曾經(jīng)因為專注于《星際爭霸 II》環(huán)境而導(dǎo)致調(diào)試花了很長時間。因此,Revar 只需要一個命令行就能改變訓(xùn)練環(huán)境,從 SC2 到 Atari 或者 CartPole(將來計劃納入 VizDoom)。每個神經(jīng)網(wǎng)絡(luò)都是簡單的 Keras 模型,只要符合基本的 API contracts 都能調(diào)用。

調(diào)試 現(xiàn)在一個游戲 AI 通常含有十幾個不同的調(diào)試參數(shù),如何實現(xiàn)更為統(tǒng)一便捷的調(diào)試?Roman Ring 在 Reaver 中只要能用的地方都用了 “gin-config”,這個輕量級調(diào)試框架只要是 Python 可調(diào)用函數(shù)都能調(diào)試,非常方便。

更新 是的,現(xiàn)在算法發(fā)展很快,去年發(fā)表的東西今年就可能過時。在開發(fā) Reaver 的時候 Roman 表示他想著用了 TensorFlow 2.0 API(主要是使用 tf.keras 不用 tf.contrib),希望這個庫能活用久一點吧。

單機友好,可用于訓(xùn)練星際爭霸II各種任務(wù)

Roman Ring 列出了 Reaver 在《星際爭霸 II》各種小型游戲上與其他 AI 的性能對比。其中,

Reaver(A2C)就是在 SC2LE 訓(xùn)練 Reaver 得到的結(jié)果

DeepMind SC2LE 是 DeepMind 在《StarCraft II: A New Challenge for Reinforcement Learning》一文中發(fā)布的結(jié)果[2]

DeepMind ReDRL 則是 DeepMind 在《Relational Deep Reinforcement Learning》中的結(jié)果[3]

人類專家是 DeepMind 收集的 GrandMaster 級別人類玩家的結(jié)果

以下是 Reaver 在不同小型游戲中訓(xùn)練花費的時間:

綜上,就算 DefeatRoaches 花了 150 小時,但考慮到硬件只是一臺筆記本(英特爾酷睿 i5-7300HQ,4核 +GTX 1050GPU),這個結(jié)果已經(jīng)算很不錯。

Roman 還列出了他的路線圖,上述成果只是他萬里長征的第一步。如果你感興趣,不妨加入這個項目。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 強化學(xué)習(xí)
    +關(guān)注

    關(guān)注

    4

    文章

    271

    瀏覽量

    11973
  • GitHub
    +關(guān)注

    關(guān)注

    3

    文章

    488

    瀏覽量

    18705
  • AI算法
    +關(guān)注

    關(guān)注

    0

    文章

    271

    瀏覽量

    13170

原文標題:單機《星際爭霸2》AI,不用GPU集群,支持多種訓(xùn)練環(huán)境

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    分立式與集成式差分放大器的性能對比

    本期,為大家?guī)淼氖恰斗至⑹脚c集成式差分放大器對比》,介紹了集成式差分放大器與分立式方案的實測性能對比,以解決高精度電壓/電流檢測應(yīng)用中如何選擇更優(yōu)實施方案的問題。
    的頭像 發(fā)表于 01-26 16:53 ?8426次閱讀
    分立式與集成式差分放大器的<b class='flag-5'>性能對比</b>

    CW32L012與STM32G431的CORDIC三角函數(shù)運算性能對比

    CORDIC協(xié)處理器的三角運算性能對比。對比結(jié)果出乎意料。 一、硬件架構(gòu) 二、運算100W次SIN30度與COS30度的代碼實現(xiàn) 1.CW32L012 CW32L012的CORDIC提供某些數(shù)學(xué)函數(shù)
    的頭像 發(fā)表于 12-29 15:55 ?2543次閱讀
    CW32L012與STM32G431的CORDIC三角函數(shù)運算<b class='flag-5'>性能對比</b>

    太誘電感與村田電感的性能對比及選型

    太誘與村田電感的性能對比及選型分析 一、高頻性能對比 村田電感 高頻結(jié)構(gòu)優(yōu)勢 :高頻電路用電感以繞線型(LQW系列)和薄膜型(LQP系列)為主。繞線型采用氧化鋁芯與銅線螺旋結(jié)構(gòu),Q值極高(典型值
    的頭像 發(fā)表于 12-09 16:21 ?700次閱讀
    太誘電感與村田電感的<b class='flag-5'>性能對比</b>及選型

    【產(chǎn)品應(yīng)用】儲能網(wǎng)關(guān)EM-1000與EM-1000G的Redis性能對比

    視頻推薦隨著儲能控制系統(tǒng)智能化發(fā)展,對實時處理和高速緩存需求提升。本測試對EM-1000與EM-1000G的Redis性能進行對比,評估其吞吐、響應(yīng)與穩(wěn)定性的差異,為客戶提供精準硬
    的頭像 發(fā)表于 12-02 11:39 ?358次閱讀
    【產(chǎn)品應(yīng)用】儲能網(wǎng)關(guān)EM-1000與EM-1000G的Redis<b class='flag-5'>性能對比</b>

    客戶案例 |?《星際迷航OL》開發(fā)商 Cryptic Studios 攜手 Splashtop,以高性能遠程方案賦能全球游戲開發(fā)

    與沉浸式音效體驗,CrypticStudios以世界級游戲品質(zhì)贏得了全球玩家的喜愛。全球化協(xié)作成為游戲產(chǎn)業(yè)常態(tài)的今天,遠程開發(fā)的性能、安全性與創(chuàng)意兼容性已成為衡
    的頭像 發(fā)表于 11-21 17:00 ?2117次閱讀
    客戶案例 |?《<b class='flag-5'>星際</b>迷航OL》開發(fā)商 Cryptic Studios 攜手 Splashtop,以高<b class='flag-5'>性能</b>遠程方案賦能全球<b class='flag-5'>游戲</b>開發(fā)

    小型化設(shè)備如何兼顧EMC性能?

    ? ? ? 小型化設(shè)備中,電磁兼容性(EMC)性能至關(guān)重要,因為設(shè)備體積的縮小和組件密度的增加會帶來更復(fù)雜的電磁干擾(EMI)問題?。各種設(shè)備越來越集成化,體積也越來越小巧化,尤其穿
    的頭像 發(fā)表于 11-14 14:31 ?361次閱讀
    <b class='flag-5'>小型</b>化設(shè)備如何兼顧EMC<b class='flag-5'>性能</b>?

    薄膜電阻與陶瓷電容性能對比

    薄膜電阻與陶瓷電容性能上各有優(yōu)勢,薄膜電阻以高精度、低溫漂、低噪聲見長,適用于精密測量與高頻電路;陶瓷電容則以高頻特性、微型化與高可靠性為核心優(yōu)勢,廣泛應(yīng)用于電源管理與射頻電路。以下是對兩者的詳細
    的頭像 發(fā)表于 11-04 16:33 ?660次閱讀
    薄膜電阻與陶瓷電容<b class='flag-5'>性能對比</b>

    上汽大通MAXUS 2026星際皮卡家族上市發(fā)布

    2025年8月7日,上汽大通MAXUS 2026 星際皮卡家族上市發(fā)布,不僅帶來星際X真乘用版、星際X EV、2026款星際L三款戰(zhàn)略車型,更發(fā)布了專為皮卡打造的星棧平臺。其中,202
    的頭像 發(fā)表于 08-11 12:35 ?1175次閱讀

    鋁電解電容與其他電容類型的性能對比

    電子元器件領(lǐng)域,電容作為基礎(chǔ)被動元件之一,其性能差異直接影響電路設(shè)計的可靠性。鋁電解電容憑借獨特的結(jié)構(gòu)和工作原理,眾多電容類型中占據(jù)重要地位,但其性能特點
    的頭像 發(fā)表于 08-07 16:34 ?1825次閱讀

    投入式水位計與傳統(tǒng)浮子式儀器性能對比分析

    水位監(jiān)測領(lǐng)域,投入式水位計與浮子式儀器是兩類主流設(shè)備。南京峟思將從工程實用性角度出發(fā),對兩者進行五大核心性能對比,為巖土工程、水利安全監(jiān)測領(lǐng)域的采購及技術(shù)人員提供客觀參考。一、測量原理與精度投入式
    的頭像 發(fā)表于 07-28 13:44 ?477次閱讀
    投入式水位計與傳統(tǒng)浮子式儀器<b class='flag-5'>性能對比</b>分析

    國產(chǎn)CYD7606N與AD7606的關(guān)鍵性能對比

    本文主要介紹了上海宸嶼電子推出的國產(chǎn)CYD7606N與AD7606性能、兼容性和穩(wěn)定性等方面的對比。國產(chǎn)CYD7606N零風(fēng)險替代硬件/軟件全兼容性、
    的頭像 發(fā)表于 07-07 14:54 ?776次閱讀
    國產(chǎn)CYD7606N與AD7606的關(guān)鍵<b class='flag-5'>性能對比</b>

    量水堰計如何與其他監(jiān)測系統(tǒng)集成?

    水利工程中,量水堰計作為監(jiān)測水位及流量變化的關(guān)鍵設(shè)備,如何與其他監(jiān)測系統(tǒng)有效集成,實現(xiàn)多參數(shù)綜合監(jiān)測,是工程師們關(guān)注的焦點。本文將詳細介紹量水堰計與其他監(jiān)測系統(tǒng)的集成方法,助力用戶構(gòu)建高效、精準
    的頭像 發(fā)表于 06-30 11:02 ?480次閱讀
    量水堰計如何<b class='flag-5'>與其他</b>監(jiān)測系統(tǒng)集成?

    與其他材料集成電路中的比較

    與其他半導(dǎo)體材料集成電路應(yīng)用中的比較可從以下維度展開分析。
    的頭像 發(fā)表于 06-28 09:09 ?1878次閱讀

    如何基于Android 14i.MX95 EVK運行Deepseek-R1-1.5B和性能

    本文檔總結(jié)了如何基于 Android 14 i.MX95 EVK 運行 Deepseek-R1-1.5B 和性能。 1. Install Android 14 on i.MX95 您可以按照
    發(fā)表于 04-04 06:59

    WD5030高效同步降壓轉(zhuǎn)換器:性能對比、優(yōu)勢解析及應(yīng)用領(lǐng)域詳解

    根據(jù)提供的規(guī)格書內(nèi)容,我將找到幾款類似的電源芯片,并制作一份對比文檔,突出WD5030的優(yōu)勢。以下是對比分析的結(jié)構(gòu)和內(nèi)容: ### **對比文檔:WD5030與其他類似電源芯片的
    的頭像 發(fā)表于 04-01 16:38 ?962次閱讀
    WD5030高效同步降壓轉(zhuǎn)換器:<b class='flag-5'>性能對比</b>、優(yōu)勢解析及應(yīng)用領(lǐng)域詳解