91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI發(fā)布了一個(gè)名為“Neural MMO”的大型多智能體游戲環(huán)境

電子工程師 ? 來源:lp ? 2019-03-07 16:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最近,OpenAI 發(fā)布了一個(gè)名為“Neural MMO”的大型多智能體游戲環(huán)境,該平臺(tái)支持在一個(gè)持久開放的任務(wù)中使用大量且數(shù)量可變的智能體。大量智能體和物種的加入導(dǎo)致了更好的勘探,不同的生態(tài)位形成,和更大的整體能力。

近年來,多智能體設(shè)置已成為深度強(qiáng)化學(xué)習(xí)的有效研究平臺(tái)。盡管取得了這些進(jìn)展,多智能體強(qiáng)化學(xué)習(xí)仍然面臨兩大挑戰(zhàn)。我們需要?jiǎng)?chuàng)建具有高度復(fù)雜性上限的開放式任務(wù):當(dāng)前環(huán)境要么復(fù)雜但應(yīng)用面太窄,要么開放但太簡單。持久性和大規(guī)模等屬性是關(guān)鍵,但是我們還需要更多的基準(zhǔn)環(huán)境來量化大規(guī)模和持久性的學(xué)習(xí)進(jìn)度。而這次大型多人在線游戲 (MMOs) 模擬了一個(gè)大型生態(tài)系統(tǒng),該系統(tǒng)由數(shù)量不等的玩家在持久且廣泛的環(huán)境中進(jìn)行生存競爭。

為了應(yīng)對(duì)這些挑戰(zhàn),OpenAI 構(gòu)建了符合以下標(biāo)準(zhǔn)的神經(jīng) MMO:

1、持久性: 無需環(huán)境重置,智能體在其他學(xué)習(xí)智能體存在的情況下并發(fā)學(xué)習(xí)。策略必須考慮長期的范圍,并適應(yīng)其他智能體行為中潛在的快速變化。

2、規(guī)模:環(huán)境支持大量數(shù)量可變的實(shí)體。OpenAI 的實(shí)驗(yàn)考慮了在 100 個(gè)并發(fā)服務(wù)器中的每個(gè)服務(wù)器中 128 個(gè)并發(fā)智能體的最長 1 億個(gè)生存期。

3、效率:入門計(jì)算門檻很低。OpenAI 可以在單個(gè)桌面 CPU 上訓(xùn)練出有效的策略。

4、擴(kuò)展:與現(xiàn)有的 MMO 們類似,OpenAI 設(shè)計(jì) Neural MMO 也是為了更新新內(nèi)容。目前的核心功能包括瓦片地形的程序生成、食物和水的覓食系統(tǒng)以及戰(zhàn)略作戰(zhàn)系統(tǒng)。開源驅(qū)動(dòng)的擴(kuò)展在未來是有機(jī)會(huì)的。

在這個(gè)游戲環(huán)境中,玩家 (智能體) 可以加入任何可用的服務(wù)器 (環(huán)境),每個(gè)服務(wù)器 (環(huán)境) 都包含一個(gè)自動(dòng)生成的可配置大小的瓦片地形游戲地圖。有些地磚,如可食用的森林地磚和草地磚,是可移動(dòng)的。其他的,如水和固體石,則不是。智能體程序在環(huán)境邊緣的隨機(jī)位置生成。他們必須獲得食物和水,并避免戰(zhàn)斗傷害從其他智能體,以維持他們的健康。踩在森林地磚上或靠近水磚的地方,分別會(huì)重新填充代理的部分食物或供水。然而,森林地磚的食物供應(yīng)有限,隨著時(shí)間的推移,食物會(huì)緩慢再生。這意味著智能體必須競爭食物磚,同時(shí)周期性地從無限的水磚中補(bǔ)充他們的水供應(yīng)。玩家在戰(zhàn)斗中使用三種戰(zhàn)斗風(fēng)格,代表肉搏(近戰(zhàn)),射手(遠(yuǎn)程物理攻擊)和法師(遠(yuǎn)程魔法攻擊)。

(來源:OpenAI)

這個(gè)平臺(tái)提供了一個(gè)過程化的環(huán)境生成器和可視化工具,用于實(shí)現(xiàn)值函數(shù)、映射訪問分布和學(xué)習(xí)策略的智能體依賴性?;€使用超過 100 個(gè)世界的策略梯度進(jìn)行訓(xùn)練。

作為一個(gè)簡單的基線團(tuán)隊(duì)使用普通的策略梯度來訓(xùn)練一個(gè)小型的、完全連接的體系結(jié)構(gòu),將值函數(shù)基線和獎(jiǎng)勵(lì)折扣作為唯一增強(qiáng)。智能體不會(huì)因?yàn)閷?shí)現(xiàn)特定的目標(biāo)而獲得獎(jiǎng)勵(lì),而是只根據(jù)其生命周期 (軌跡長度) 進(jìn)行優(yōu)化——即在其生命周期中,每一次滴答聲都會(huì)獲得 1 個(gè)獎(jiǎng)勵(lì)。團(tuán)隊(duì)通過計(jì)算所有玩家的最大值 (OpenAI Five 也使用了這個(gè)技巧),將可變長度的觀察值 (比如周圍玩家的列表) 轉(zhuǎn)換為單個(gè)長度向量。源版本基于 PyTorch 和 Ray 實(shí)現(xiàn),包括完全分布式培訓(xùn)。

圖丨為了提高效率,策略在由 16 個(gè)智能體組成的組之間共享。在測(cè)試時(shí),合并在成對(duì)實(shí)驗(yàn)中學(xué)到的總體,并在一個(gè)固定的總體大小下評(píng)估生存期,且只對(duì)覓食進(jìn)行評(píng)估,因?yàn)樽鲬?zhàn)策略更難直接比較。在更大的人群中訓(xùn)練出來的智能體總是更優(yōu)秀(來源:OpenAI)

智能體的策略是從多個(gè)種群中均勻采樣的——不同種群中的代理共享架構(gòu),但只有相同種群中的智能體共享權(quán)重。初步實(shí)驗(yàn)表明,隨著多智能體交互作用的增加,智能體的能力逐漸增強(qiáng)。增加并發(fā)玩家的最大數(shù)量會(huì)放大探索;種群數(shù)量的增加放大了生態(tài)位的形成,也就是說,種群在地圖不同區(qū)域的分布和覓食的趨勢(shì)。

在老版本的 mmo 中沒有標(biāo)準(zhǔn)的程序來評(píng)估跨服務(wù)器的相對(duì)玩家能力。然而,MMO 服務(wù)器有時(shí)會(huì)經(jīng)歷合并,即來自多個(gè)服務(wù)器的玩家基地被放置在單個(gè)服務(wù)器中。團(tuán)隊(duì)通過合并在不同服務(wù)器上訓(xùn)練的玩家基礎(chǔ)來實(shí)現(xiàn)“錦標(biāo)賽”風(fēng)格的評(píng)估。這使團(tuán)隊(duì)能夠直接比較在不同實(shí)驗(yàn)環(huán)境中學(xué)習(xí)到的策略。團(tuán)隊(duì)改變了測(cè)試時(shí)間范圍,發(fā)現(xiàn)在較大環(huán)境中訓(xùn)練的智能體始終優(yōu)于在較小環(huán)境中訓(xùn)練的智能體。

在自然界中,動(dòng)物之間的競爭促使它們分散開來以避免沖突。OpenAI 觀察到,隨著并發(fā)智能體數(shù)量的增加,映射覆蓋率也在增加。智能體學(xué)習(xí)探索僅僅是因?yàn)槠渌悄荏w的存在提供了這樣做的自然動(dòng)機(jī)。

圖丨物種數(shù)量 (種群數(shù)量) 放大了生態(tài)位的形成。探視地圖覆蓋游戲地圖;不同的顏色對(duì)應(yīng)不同的物種。訓(xùn)練單一種群往往會(huì)產(chǎn)生單一的深度探索路徑。訓(xùn)練 8 個(gè)種群會(huì)導(dǎo)致許多更淺的路徑:種群分散以避免物種間的競爭(來源:OpenAI)

在一個(gè)足夠大且資源豐富的環(huán)境中,團(tuán)隊(duì)發(fā)現(xiàn)不同的智能體種群分布在整個(gè)地圖上,以避免在種群增長時(shí)與其他智能體競爭。由于實(shí)體無法在競爭中勝過其人口中的其他智能體 (即與它們共享權(quán)重的代理),它們傾向于在地圖上尋找包含足夠資源以維持其人口的區(qū)域。DeepMind 在并發(fā)多代理研究中也獨(dú)立觀察到類似的效果。

圖丨每個(gè)正方形映射顯示位于正方形中心的智能體對(duì)其周圍的智能體的響應(yīng)。我們展示了初始化和訓(xùn)練早期的覓食圖;額外的依賴關(guān)系映射對(duì)應(yīng)于不同的覓食和戰(zhàn)斗公式(來源:OpenAI)

OpenAI 通過將智能體固定在假想映射作物的中心來可視化智能體-智能體依賴關(guān)系。對(duì)于該智能體可見的每個(gè)位置,OpenAI 將顯示如果在該位置有第二個(gè)智能體,值函數(shù)將是什么。OpenAI 發(fā)現(xiàn),在覓食和戰(zhàn)斗環(huán)境中,智能體學(xué)習(xí)依賴于其他智能體的策略。智能體們學(xué)習(xí)“牛眼”躲避地圖,在僅僅幾分鐘的訓(xùn)練后就能更有效地開始搜尋。當(dāng)智能體們學(xué)習(xí)環(huán)境中的戰(zhàn)斗機(jī)制時(shí),他們開始學(xué)會(huì)適當(dāng)?shù)卦u(píng)估有效的交戰(zhàn)范圍和接近的角度。

總而言之,OpenAI 的 Neural MMO 解決了之前基于游戲環(huán)境的兩個(gè)關(guān)鍵限制,但仍有許多問題沒有解決。未來我們還能期待更多的突破。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 可視化
    +關(guān)注

    關(guān)注

    1

    文章

    1353

    瀏覽量

    22798
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    476

    瀏覽量

    11605
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    270

    瀏覽量

    11970

原文標(biāo)題:堪稱游戲 AI“養(yǎng)蠱”!OpenAI 發(fā)布大型多智能體游戲環(huán)境

文章出處:【微信號(hào):deeptechchina,微信公眾號(hào):deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來了

    當(dāng)?shù)貢r(shí)間5月13日OpenAI推出ChatGPT-4o,代表人工智能向前邁出的大步。在GPT-4turbo的強(qiáng)大基礎(chǔ)上,這種迭代擁有顯著的改進(jìn)。在
    發(fā)表于 05-27 15:43

    【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗(yàn)】操作實(shí)戰(zhàn),開發(fā)個(gè)編程助手智能

    . 首先要理解智能的相關(guān)概念 ,比如角色,限定,技能:包括插件等,知識(shí):包括知識(shí)庫,文檔等等. 創(chuàng)建步驟: 二.創(chuàng)建智能: 預(yù)覽和
    發(fā)表于 05-27 11:16

    介紹智能體系統(tǒng)的解決方案以及應(yīng)用

    些具有挑戰(zhàn)性的環(huán)境中有效地執(zhí)行。本文討論深度RL的一個(gè)重要方面,它涉及到需要多個(gè)智能進(jìn)行通信和合作以解決復(fù)
    發(fā)表于 07-12 08:44

    OpenAI公布MADDPG代碼,讓智能學(xué)習(xí)合作、競爭和交流

    對(duì)抗,環(huán)境則完全符合你的技術(shù)水平)。其次,智能環(huán)境沒有穩(wěn)定的平衡,即無論
    的頭像 發(fā)表于 03-16 14:01 ?1.5w次閱讀
    <b class='flag-5'>OpenAI</b>公布MADDPG代碼,讓<b class='flag-5'>智能</b><b class='flag-5'>體</b>學(xué)習(xí)合作、競爭和交流

    OpenAI宣布他們的AI僅通過次人類演示,蒙特祖瑪?shù)膹?fù)仇游戲中玩出歷史最高分

    這次,OpenAI的研究團(tuán)隊(duì)訓(xùn)練了個(gè)智能,僅通過次人類demo,就在蒙特祖瑪?shù)膹?fù)仇
    的頭像 發(fā)表于 07-09 09:24 ?4852次閱讀

    彰顯旗艦級(jí)品質(zhì),雷柏V910 MMO激光游戲鼠標(biāo)拆解

    款好的MMO游戲鼠標(biāo)對(duì)于玩家來說是個(gè)至關(guān)重要的事情,好的MMO類型的
    的頭像 發(fā)表于 07-31 10:49 ?3607次閱讀
    彰顯旗艦級(jí)品質(zhì),雷柏V910 <b class='flag-5'>MMO</b>激光<b class='flag-5'>游戲</b>鼠標(biāo)拆解

    人工智能挑戰(zhàn)人類,OpenAI機(jī)器人打敗游戲玩家

    在人工智能領(lǐng)域,打敗人類是過時(shí)的做法?,F(xiàn)在,頂尖的學(xué)者和科技公司想要想“人類”挑戰(zhàn)電子游戲。由Elon Musk和Sam Altman共同創(chuàng)立的研究實(shí)驗(yàn)室OpenAI宣布其最新的里程
    的頭像 發(fā)表于 07-27 10:43 ?5091次閱讀

    OpenAI剛剛開源個(gè)大規(guī)模智能游戲環(huán)境

    我們需要?jiǎng)?chuàng)建具有高度復(fù)雜性上限的開放式任務(wù):當(dāng)前的環(huán)境要么雖然復(fù)雜但過于狹窄,要么雖然開放但過于簡單。持續(xù)性和大規(guī)模等屬性也很關(guān)鍵,但是我們還需要更多的基準(zhǔn)環(huán)境 (benchmark environments) 來量化在具有大規(guī)模和持續(xù)性條件下的學(xué)習(xí)進(jìn)度。
    的頭像 發(fā)表于 03-06 09:07 ?4049次閱讀
     <b class='flag-5'>OpenAI</b>剛剛開源<b class='flag-5'>了</b><b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>大規(guī)模<b class='flag-5'>多</b><b class='flag-5'>智能</b><b class='flag-5'>體</b><b class='flag-5'>游戲</b><b class='flag-5'>環(huán)境</b>

    OpenAI發(fā)布Neural MMO個(gè)強(qiáng)化學(xué)習(xí)的大型智能游戲環(huán)境

    其中,持久性和規(guī)?;瘜⑹翘接懙年P(guān)鍵屬性,但研究者們還需要更好的基準(zhǔn)測(cè)試環(huán)境,在存在大量人口規(guī)模和持久性的情況下量化學(xué)習(xí)進(jìn)度。這游戲類型(MMO
    的頭像 發(fā)表于 03-06 15:30 ?1.2w次閱讀

    DeepMind設(shè)計(jì)個(gè)新的智能獎(jiǎng)勵(lì)機(jī)制

    種方法是比較個(gè)反事實(shí)狀態(tài),如果智能從初始狀態(tài)(不作為基線)開始就沒有做任何事情,那么環(huán)境
    的頭像 發(fā)表于 03-19 09:19 ?3793次閱讀

    羅技發(fā)布新款無線游戲鼠標(biāo) 提供1ms報(bào)告率幾乎零延遲

    本周,羅技發(fā)布G604 LIGHTSPEED無線游戲鼠標(biāo),面向MMO和MOBA玩家。
    的頭像 發(fā)表于 09-17 14:34 ?5260次閱讀

    拳頭 Riot 證實(shí)正在開發(fā)大型多人在線游戲《英雄聯(lián)盟》

    據(jù)外媒 PCGamer 報(bào)道,拳頭游戲(Riot Games)正在招募個(gè) “大規(guī)?!钡男?b class='flag-5'>游戲項(xiàng)目。 這款游戲應(yīng)當(dāng)是以《英雄聯(lián)盟》的 Run
    的頭像 發(fā)表于 12-18 17:53 ?2736次閱讀

    OpenAI推出新款大模型Sora,引領(lǐng)模態(tài)AI新潮流

    全球人工智能領(lǐng)域的佼佼者OpenAI近日發(fā)布名為Sora的短視頻生成模型,該模型能夠根據(jù)文
    的頭像 發(fā)表于 02-18 10:16 ?1912次閱讀

    OpenAI發(fā)布智能GPT模型及AI智能工具

    OpenAI近日透露了其未來發(fā)展的重要?jiǎng)酉颉?jù)OpenAI首席產(chǎn)品官凱文·維爾(Kevin Weil)介紹,公司計(jì)劃推出更智能的GPT o3模型,并首次亮相AI智能
    的頭像 發(fā)表于 01-24 13:54 ?918次閱讀

    OpenAI發(fā)布深度研究智能功能

    近日,OpenAI正式推出了面向深度研究領(lǐng)域的智能產(chǎn)品——深度研究(Deep Research)功能。這創(chuàng)新功能旨在支持領(lǐng)域的高強(qiáng)度知
    的頭像 發(fā)表于 02-05 15:05 ?1133次閱讀