91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI的由5個神經(jīng)網(wǎng)絡(luò)組成的OpenAI Five,已經(jīng)開始擊敗Dota 2的業(yè)余玩家隊伍

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-06-27 12:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

剛剛,OpenAI宣布了一個大新聞——他們的一個由5個神經(jīng)網(wǎng)絡(luò)組成的OpenAI Five,已經(jīng)開始擊敗Dota 2的業(yè)余玩家隊伍。

剛剛,OpenAI 宣布了一個大新聞——還記得去年他們的AI在 Dota2 1v1 比賽中戰(zhàn)勝了人類職業(yè)玩家 Dendi嗎?現(xiàn)在,OpenAI的由5個神經(jīng)網(wǎng)絡(luò)組成的OpenAI Five,已經(jīng)開始擊敗Dota 2的業(yè)余玩家隊伍。

4月23日,OpenAI Five首次擊敗了腳本基線。5月15日,OpenAI Five與第一隊平分秋色,贏得了一場比賽并輸?shù)袅肆硪粓觥?月6日,OpenAI Five在與隊伍1、2、3的比賽中全部獲勝。之后,我們又與第4和第5隊進(jìn)行了非正式的比賽,預(yù)計會輸?shù)煤軕K,但OpenAI Five在前3場比賽中贏得了兩場。

OpenAI表示,雖然他們現(xiàn)在玩的是有限制的游戲,但他們的目標(biāo)是在8月份擊敗國際頂級職業(yè)團(tuán)隊(不過只限于一組有限的英雄)。同時,他們也坦承這個任務(wù)艱巨——“我們可能不會成功:Dota 2是世界上最流行和最復(fù)雜的電子競技游戲之一,每年都有來自全世界最富有創(chuàng)造力和積極性的專業(yè)人員參賽,競爭Dota年度價值4000萬美元的獎金(這也是所有電子競技游戲中份額最大的獎金)。

如今,OpenAI Five每天都通過自我對戰(zhàn)(self-play)來學(xué)習(xí),而每天自我對戰(zhàn)的量是180年的游戲——沒錯,是180年。它使用OpenAI提出的算法“近端策略優(yōu)化”(PPO)的擴(kuò)展版,在256個GPU和128,000個CPU內(nèi)核上進(jìn)行訓(xùn)練。每個英雄都使用單獨的LSTM,不使用人類數(shù)據(jù),最終AI能夠?qū)W會識別策略。這表明,強(qiáng)化學(xué)習(xí)能夠進(jìn)行大但卻可實現(xiàn)規(guī)模(large but achievable scale)的長期規(guī)劃,而不發(fā)生根本性的進(jìn)展,這與OpenAI開始項目時的預(yù)期相悖。

為了對他們所取得的進(jìn)步衡量基準(zhǔn),OpenAI將在7月28日舉行一場比賽,歡迎觀看直播甚至親臨現(xiàn)場。

OpenAI Five與OpenAI玩DOTA最好的團(tuán)隊競賽。比賽由暴風(fēng)游戲的專業(yè)評論員和OpenAI Dota團(tuán)隊成員Christy Dennison進(jìn)行了評論,也得到了玩家的觀戰(zhàn)。

國內(nèi)首家決策智能公司創(chuàng)始人兼CEO袁泉點評:

Dota游戲是一個典型的AI難題,它綜合了決策周期長,空間大而且敵我雙方是在非完全信息下博弈。OpenAI繼去年解決1v1的問題后,1年內(nèi)能在5v5的更復(fù)雜情況下,完全依靠自我對抗學(xué)習(xí)、無顯式通訊信道的前提下,即展現(xiàn)出了類似于人的長期規(guī)劃協(xié)作能力,代表了多智能體決策智能的國際最高水準(zhǔn),也體現(xiàn)了大規(guī)模算力帶來的美感。

Dota2究竟有多難?復(fù)雜程度超乎想象

玩星際爭霸或Dota,需要AI在不確定的情況下進(jìn)行推理與規(guī)劃,涉及多個智能體協(xié)作完成復(fù)雜的任務(wù),權(quán)衡短中長期不同的收益。相比下圍棋這樣的確定性問題,星際爭霸/Dota的搜索空間要高出10個數(shù)量級。

因此,攻克星際爭霸或者Dota這樣的復(fù)雜電子競技游戲,是AI的最大挑戰(zhàn)之一,也將是AI的一個里程碑式的成就。

Dota 2 是一個實時競技電子游戲,有兩支5人隊伍組成,每個人都控制一個英雄,能玩Dota的AI,必須掌握以下技巧:

很長的時間線。Dota游戲以每秒30幀的速度運(yùn)行,平均時間為45分鐘,因此每場游戲的時間tick為80,000次。大多數(shù)行為(例如命令英雄移動到某個位置)單獨產(chǎn)生的影響較小,但有些個別的行為,比如在城市間移動(回城卷軸),可能會在戰(zhàn)略上影響游戲。還有一些策略,則能影響整個戰(zhàn)局。OpenAI Five每4幀觀察一次,產(chǎn)生20,000次移動。相比之下,國際象棋通常在40次移動之前就結(jié)束,圍棋則是150手移動前結(jié)束,而且?guī)缀趺恳淮我苿佣际菓?zhàn)略性的。

部分觀察狀態(tài)。在Dota過程中,隊伍(units)和建筑物只能看到他們周圍的區(qū)域。地圖的其他部分隱藏在霧中,敵人和他們的戰(zhàn)略也是隱藏的。因此,比賽需要根據(jù)不完整的數(shù)據(jù)進(jìn)行推斷,并且需要對對手的最佳狀態(tài)進(jìn)行建模。相比之下,國際象棋和圍棋都是信息完全顯露出來的游戲。

高維連續(xù)動作空間。在Dota中,每個英雄可以采取數(shù)十個動作,而許多動作都是針對另一個單位(unit)或地面上的某個位置。OpenAI將每個英雄的空間分割成170,000個可能的行動;不計算連續(xù)部分,每個tick平均有大約1000次有效操作。國際象棋中的平均動作數(shù)為35,在圍棋中,這是數(shù)字也只有250。

高維連續(xù)的觀察空間。Dota在包含十個英雄,幾十個建筑物,幾十個NPC以及諸如符文、樹木和病房等游戲長尾特征。OpenAI的模型通過Valve的Bot API觀察Dota游戲的狀態(tài),其中20,000(大多是浮點)數(shù)字表示允許人類訪問的所有信息。相比之下,國際象棋棋盤有大約70個枚舉值(8x8的棋盤加6種棋子類型和其他一些的歷史信息),而圍棋則有大約400個枚舉值(19x19的棋盤加黑白兩種棋子)。

Dota規(guī)則也非常復(fù)雜。這是一個已經(jīng)被積極開發(fā)了十多年的游戲,游戲邏輯在幾十萬行代碼中實現(xiàn)。這個邏輯需要幾毫秒的時間才能執(zhí)行,而對于國際象棋或圍棋引擎則只需要幾納秒。游戲也每兩周更新一次,不斷改變環(huán)境語義。

完全從自我對戰(zhàn)中學(xué)習(xí),128000CPU+256 P100GPU

OpenAI的系統(tǒng)使用Proximal Policy Optimization的大規(guī)模版本進(jìn)行學(xué)習(xí)。OpenAI Five和OpenAI早期的1v1 bot都是完全從自我對戰(zhàn)中學(xué)習(xí)。它們從隨機(jī)參數(shù)開始,不使用來自人類回放(replay)的搜索或引導(dǎo)。

RL研究人員(包括OpenAI自己)一般認(rèn)為,長時間視野(long time horizons)需要從根本上取得新的進(jìn)展,比如分層強(qiáng)化學(xué)習(xí)。結(jié)果表明,實際上現(xiàn)如今的算法已經(jīng)足夠,至少當(dāng)它們以足夠的規(guī)模和合理的探索方式運(yùn)行時。

OpenAI的agent經(jīng)過訓(xùn)練,可以最大化未來獎勵的指數(shù)衰減總和,并由稱為γ的指數(shù)衰減因子加權(quán)。在最新的OpenAI Five訓(xùn)練中,他們從0.998(評估未來獎勵的半衰期為46秒)到0.9997(評估未來獎勵的半衰期為五分鐘)退化γ。相比之下,PPO論文中最長的half-life是0.5秒,Rainbow論文中最長的半衰期為4.4秒。

盡管當(dāng)前版本的OpenAI Five在最后一擊時表現(xiàn)不佳,但其objective prioritization已經(jīng)堪比一個常見的專家。獲得戰(zhàn)略地圖控制等長期回報往往需要犧牲短期回報,例如從農(nóng)業(yè)獲得的黃金,因為組建攻擊塔需要時間。這表明系統(tǒng)真正在進(jìn)行長期的優(yōu)化。

模型結(jié)構(gòu)

每個OpenAI Five網(wǎng)絡(luò)都包含一個單層的、1024-unit的LSTM,它可以查看當(dāng)前的游戲狀態(tài)(從Valve的Bot API中提取),并通過幾個可能的action heads發(fā)出動作。每個 head都具有語義含義,例如,延遲動作的刻度數(shù),選擇一個動作時,該動作在單元周圍網(wǎng)格中的X或Y坐標(biāo)等。Action heads是獨立計算的。

OpenAI Five使用觀察空間和動作空間進(jìn)行交互式演示。OpenAI Five將世界視為20000個數(shù)字的列表,并通過發(fā)出一個包含8個枚舉值的列表來采取行動。選擇不同的行動和目標(biāo)以了解OpenAI Five如何編碼每個動作,以及它如何觀察世界。下圖顯示了人類會看到的場景。

OpenAI Five可以對丟失的與它所看到的相關(guān)的狀態(tài)片段做出反應(yīng)。例如,直到最近,OpenAI Five的觀察都還沒有包括彈片區(qū)域(彈片落在敵人身上的區(qū)域),人類在屏幕上能看到這些區(qū)域。然而,我們觀察到OpenAI Five學(xué)習(xí)走出(雖然不能避免進(jìn)入)活躍的彈片區(qū)域,因為當(dāng)進(jìn)入彈片區(qū)時,它可以看到它的健康狀況在下降。

探索

盡管有學(xué)習(xí)算法能夠處理較長的視野,我們?nèi)匀恍枰剿鳝h(huán)境。即使我們設(shè)了限制,仍然有數(shù)百個物品,幾十種建筑,法術(shù)和單元類型,以及需要了解的復(fù)雜的游戲機(jī)制——其中許多產(chǎn)生了強(qiáng)大的組合。要有效地探索這個巨大的空間并不容易。

OpenAI Five從自我玩游戲(self-play)過程中學(xué)習(xí)(從隨機(jī)權(quán)重開始),這為探索環(huán)境提供了一個自然的設(shè)置。為了避免“戰(zhàn)略崩潰”,agent在80%的游戲中進(jìn)行自我訓(xùn)練,其余20%的游戲則與過去的自己對戰(zhàn)。在第一場比賽中,英雄漫無目的地在地圖上漫步。經(jīng)過幾個小時的訓(xùn)練后,出現(xiàn)了諸如laning、farming或中期戰(zhàn)斗等概念。幾天之后,它們一直采用基本的人類策略:試圖從對手手中奪取神符,步行到一級塔去農(nóng)場,并在地圖周圍旋轉(zhuǎn)英雄以獲得lane優(yōu)勢。通過進(jìn)一步的訓(xùn)練,它們變得精通5-hero push 這樣的高級戰(zhàn)略了。

在2017年3月,我們的第一個agent擊敗了bot,但仍然搞不定人類。為了強(qiáng)制在戰(zhàn)略空間進(jìn)行探索,在訓(xùn)練期間(并且只在訓(xùn)練期間),我們對這些單元的屬性(健康,速度,啟動級別等)進(jìn)行了隨機(jī)化,然后用它開始能與人類對打。后來,當(dāng)一名測試玩家一直不斷地?fù)魯∥覀兊?v1 bot時,我們增加了隨機(jī)訓(xùn)練,測試玩家開始出現(xiàn)失敗。(我們的機(jī)器人團(tuán)隊同時將類似的隨機(jī)化技術(shù)應(yīng)用于物理機(jī)器人身上,以便從模式世界轉(zhuǎn)換到現(xiàn)實世界。)

OpenAI Five使用我們?yōu)?v1 bot編寫的隨機(jī)數(shù)據(jù)。它還使用一個新的“l(fā)ane assignment”。在每次訓(xùn)練游戲開始時,我們隨機(jī)地將每個英雄“分配”給一些lane的子集,并在它發(fā)生偏離是對其進(jìn)行懲罰,直到游戲中隨機(jī)選擇的時間。

這樣的探索得到了很好的回報。我們的獎勵主要由衡量人類如何在游戲中做決定的指標(biāo)組成:凈價值,kills,死亡,助攻,上次命中等等。我們通過減去另一組的平均獎勵后處理每個agent的獎勵,以防止agent找到 positive-sum 的情況。

我們硬編碼項目和技能構(gòu)建(最初為我們的腳本基準(zhǔn)編寫),并選擇隨機(jī)使用哪些構(gòu)建。

協(xié)調(diào)

OpenAI Five不包含英雄神經(jīng)網(wǎng)絡(luò)之間的明確通信渠道。團(tuán)隊合作由我們稱為“團(tuán)隊精神”(team spirit)的超參數(shù)控制。team spirit的范圍從0到1,對OpenAI Five的每個英雄應(yīng)該關(guān)心其個人獎勵函數(shù)與團(tuán)隊獎勵函數(shù)的平均值賦予權(quán)重。我們在訓(xùn)練中將它的值從0降到1。

快速

我們的系統(tǒng)是一個稱為Rapid的通用RL訓(xùn)練系統(tǒng),可用于任何Gym環(huán)境。我們已經(jīng)使用Rapid解決了OpenAI的其他一些問題,包括競爭性的自我對戰(zhàn)。

訓(xùn)練系統(tǒng)分為運(yùn)行游戲副本的rolloutworker和收集經(jīng)驗的agent,以及optimizer節(jié)點,這些節(jié)點在整個GPU隊列中執(zhí)行同步梯度下降。 rollout worker通過Redis將它們的經(jīng)驗同步到optimizer每個實驗還包括訓(xùn)練好的agent進(jìn)行評估,以及監(jiān)控軟件,如TensorBoard,Sentry和Grafana。

在同步梯度下降過程中,每個GPU計算batch部分的梯度,然后對梯度進(jìn)行全局平均。下圖顯示了不同數(shù)量的GPU同步58MB數(shù)據(jù)的延遲。

我們?yōu)镽apid實施了Kubernetes,Azure和GCP后端。

游戲結(jié)果

到目前為止,OpenAI Five已經(jīng)(在我們的限制下)與這些對手進(jìn)行了比賽:

最佳OpenAI員工團(tuán)隊:2.5k MMR(46th percentile)

觀看OpenAI員工比賽的最佳觀眾(包括第一次OpenAI員工比賽的解說員Blitz):4-6k MMR(90th-99th percentile),盡管他們從來沒有作為一個團(tuán)隊參賽。

Valve employee團(tuán)隊:2.5-4k MMR(46th-90th percentile)。

業(yè)余團(tuán)隊:4.2k MMR(93rd percentile),訓(xùn)練為一支隊伍。

半專業(yè)團(tuán)隊:5.5k MMR(99th percentile),訓(xùn)練為一支隊伍。

4月23日版的OpenAI Five是第一個擊敗我們的腳本基線的版本。5月15號的OpenAI Five與第一隊旗鼓相當(dāng),贏了一場比賽,又輸了一場。6月6日的OpenAI Five戰(zhàn)勝了1-3對。我們和4隊、5隊建立了非正式的比賽,預(yù)計出現(xiàn)很差的表現(xiàn),但是OpenAI Five在前三場比賽中均贏了兩場。

“機(jī)器人的團(tuán)隊合作方面簡直勢不可擋,感覺就像五個無私的玩家一樣,知道一個很好的總體戰(zhàn)略?!薄?Blitz

我們發(fā)現(xiàn)OpenAI Five:

為了換取控制敵人的優(yōu)勢路safelane,多次犧牲自己的優(yōu)勢路(上路是夜魘,下路是天輝),迫使戰(zhàn)斗向敵人更難防御的一邊進(jìn)行。這種策略在過去幾年出現(xiàn)在專業(yè)領(lǐng)域,現(xiàn)在被認(rèn)為是流行的策略。Blitz說他是在經(jīng)過8年的比賽后才知道這一點的,當(dāng)時Team Liquid告訴他這件事。

從比賽初期到賽季中期的轉(zhuǎn)場比對手更快。 它是這樣做的:(1)當(dāng)玩家在他們路上過度擴(kuò)張時,建立成功的Ganks;(2)在對手組織對抗之前組隊占領(lǐng)塔。

在少數(shù)領(lǐng)域偏離了目前的游戲風(fēng)格,比如給予支持英雄許多早期經(jīng)驗和黃金。 OpenAI Five的優(yōu)先級使得它的傷害更早達(dá)到頂峰,并使它的優(yōu)勢更加強(qiáng)大,贏得團(tuán)隊?wèi)?zhàn)斗并利用錯誤來確??焖俚膭倮?/p>

與人類的不同之處

OpenAI Five可以訪問與人類相同的信息,但是它可以立即看到諸如位置、健康狀況和物品清單等數(shù)據(jù),這些數(shù)據(jù)是人類必須手動檢查的。我們的方法與觀察狀態(tài)沒有本質(zhì)的聯(lián)系,但是僅僅從游戲中渲染像素就需要數(shù)千個GPU。

OpenAI Five的平均動作速度約為每分鐘150-170個動作(理論上最大動作速度為450個,因為每隔4幀就觀察一次)。對于熟練的玩家來說,幀完美的時機(jī)對于OpenAI Five來說是微不足道的。 OpenAI Five的平均反應(yīng)時間為80ms,比人類快。

這些差異在1v1中最為重要(我們的機(jī)器人的響應(yīng)時間為67ms),但是我們已經(jīng)看到人類從機(jī)器人身上學(xué)習(xí)并適應(yīng)機(jī)器人,所以競技場相對比較公平。數(shù)十位專業(yè)人士在去年TI的幾個月里使用我們的1v1機(jī)器人進(jìn)行訓(xùn)練。根據(jù)Blitz的說法,1v1機(jī)器人改變了人們對1v1的看法(機(jī)器人采用了快節(jié)奏的游戲風(fēng)格,現(xiàn)在每個人都適應(yīng)了)。

一些驚人的發(fā)現(xiàn)

二元獎勵能夠帶來好的表現(xiàn)。我們的1v1模型有一個有形的獎勵,包括對最后命中目標(biāo)、殺戮等等的獎勵。我們做了一個實驗,只獎勵那些獲勝的agent或只獎勵失敗的agent,它訓(xùn)練一個數(shù)量級更慢,并且在中間有一些停滯,這與我們通??吹降钠交膶W(xué)習(xí)曲線形成了對比。實驗運(yùn)行在4500個內(nèi)核和16個k80 GPU上,訓(xùn)練到半專業(yè)級(70個TrueSkill),而不是我們最好的1v1機(jī)器人的90個TrueSkill。

Creep blocking可以從頭開始學(xué)習(xí)。對于1v1,我們學(xué)習(xí)了使用傳統(tǒng)RL進(jìn)行creep blocking并帶有“creep block”獎勵。我們的一個團(tuán)隊成員在休假時離開了2v2模型的訓(xùn)練,打算看看還需要多久的訓(xùn)練才能提高性能。令他驚訝的是,這個模型學(xué)會了沒有任何特別的指導(dǎo)或獎勵的情況下creep block。

我們還在修復(fù)bug。上面的圖表顯示了擊敗業(yè)余玩家的代碼的訓(xùn)練運(yùn)行情況,相比之下,我們只是修復(fù)了一些bug,比如在訓(xùn)練中偶爾發(fā)生的崩潰,或者達(dá)到25級時導(dǎo)致一個大的負(fù)面獎勵的錯誤。事實證明,這個系統(tǒng)有可能擊敗人類高手,但同時也可能隱藏著嚴(yán)重的bug!

接下來是什么?

我們的隊伍正集中精力完成我們8月份的目標(biāo)。我們不知道這個目標(biāo)能否實現(xiàn),但我們相信,只要努力工作(還有點運(yùn)氣),我們就能實現(xiàn)。

這篇文章描述了6月6日我們系統(tǒng)的快照。在超越人類性能的過程中,我們將發(fā)布更新,并在項目完成后就最終系統(tǒng)編寫報告。請在7月28日加入我們,屆時我們將與一組頂級球員比賽!

我們的目標(biāo)是超越Dota?,F(xiàn)實世界人工智能的部署將需要處理Dota提出的挑戰(zhàn),而這些挑戰(zhàn)并不反映在國際象棋、圍棋、雅達(dá)利游戲或Mujoco基準(zhǔn)測試任務(wù)中。最后,我們將衡量Dota系統(tǒng)在實際任務(wù)中的應(yīng)用成功程度。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:【攻克Dota2】OpenAI自學(xué)習(xí)多智能體5v5團(tuán)隊?wèi)?zhàn)擊敗人類玩家

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    【PYNQ-Z2試用體驗】神經(jīng)網(wǎng)絡(luò)基礎(chǔ)知識

    超過閾值,輸出就一躍而起。但我們一般用S函數(shù)作為激活函數(shù)。如下圖:圖2 該函數(shù)相比階越函數(shù)更加接近現(xiàn)實。神經(jīng)網(wǎng)絡(luò)原理如圖所示是一具有兩層的神經(jīng)網(wǎng)絡(luò),每層有兩
    發(fā)表于 03-03 22:10

    基于BP神經(jīng)網(wǎng)絡(luò)的PID控制

    神經(jīng)網(wǎng)絡(luò)可以建立參數(shù)Kp,Ki,Kd自整定的PID控制器。基于BP神經(jīng)網(wǎng)絡(luò)的PID控制系統(tǒng)結(jié)構(gòu)框圖如下圖所示:控制器兩部分組成:經(jīng)典增量式PID控制器;BP
    發(fā)表于 09-07 07:43

    AI在簡化了的DOTA2擊敗前1%玩家,學(xué)習(xí)能力很出色

    ”、沒有隱身裝備、沒有召喚單位和幻象、以及少了一些裝備等。這也使整個比賽簡化了不少,從另一角度看AI仍然沒能力完全加入人類版的DOTA2游戲中。
    發(fā)表于 06-29 19:39 ?856次閱讀

    AI也能相互協(xié)作的玩游戲,玩Dota2戰(zhàn)勝了人類玩家

    據(jù)悉,OpenAI開發(fā)了出了一套名為“OpenAI Five”的算法,雖然單獨來看這種算法并沒有什么突破,只是針對玩Dota2的一種神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 06-27 05:29 ?976次閱讀

    有了OpenAI Five,它已經(jīng)可以在比賽中擊敗業(yè)余玩家

    如果一AI能在像星際、Dota這樣復(fù)雜的游戲里超越人類水平,那它就是一里程碑。相較于AI之前在國際象棋和圍棋里取得的成就,游戲能更好地捕捉現(xiàn)實世界中的混亂和連續(xù)性,這就意味著能解決游戲問題的AI系統(tǒng)具有更好的通用性。醉翁之意
    的頭像 發(fā)表于 06-29 11:54 ?4075次閱讀

    AI首度在電競游戲《DOTA 2擊敗人類

    經(jīng)過又一年的努力,OpenAI表示,他們已經(jīng)成功制作一款能夠在《DOTA 2》中以「團(tuán)體戰(zhàn)」形式,擊敗五名頂尖
    的頭像 發(fā)表于 06-29 15:16 ?3464次閱讀

    Dota2敗給OpenAI-Five究竟是為什么?

    OpenAI昨日發(fā)布研究成果,宣布Dota2 5v5在限定條件下(英雄陣容固定,部分道具和功能禁用)戰(zhàn)勝人類半職業(yè)選手。本文主要對其模型技術(shù)架構(gòu)做一些分析總結(jié)。
    的頭像 發(fā)表于 07-05 16:17 ?5425次閱讀

    5AI隊伍竟然可以在《Dota2》戰(zhàn)勝人類5隊伍

    之前AI在中單solo打敗知名選手Dendi的事情過了很久了,同團(tuán)隊開發(fā)的5神經(jīng)網(wǎng)絡(luò)AI隊伍已經(jīng)能在《
    的頭像 發(fā)表于 07-25 11:18 ?3572次閱讀

    人工智能挑戰(zhàn)人類,OpenAI機(jī)器人打敗游戲玩家

    在人工智能領(lǐng)域,打敗人類是過時的做法?,F(xiàn)在,頂尖的學(xué)者和科技公司想要想“人類”挑戰(zhàn)電子游戲。Elon Musk和Sam Altman共同創(chuàng)立的研究實驗室OpenAI宣布了其最新的里程碑:一由人工智能代理商
    的頭像 發(fā)表于 07-27 10:43 ?5091次閱讀

    人工智能團(tuán)隊彼此協(xié)作,視頻游戲Dota 2擊敗了五名半職業(yè)人類玩家

    近日,一人工智能團(tuán)隊彼此協(xié)作,在視頻游戲Dota 2的多玩家在線戰(zhàn)斗競技場(MOBA)中成功擊敗了五名半職業(yè)人類
    發(fā)表于 08-08 10:53 ?773次閱讀

    OpenAI FiveDota2國際競賽TI8中進(jìn)行首次對戰(zhàn)以失敗告終

    OpenAI Five是一5人工神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 08-24 08:53 ?5670次閱讀

    OpenAI Five是如何訓(xùn)練的、為什么選擇打Dota以及AI在打Dota的時候在想什么?

    總決賽讓OpenAI的科學(xué)家可以回答一重要的研究問題:OpenAI Five在多大程度、以何種方式能夠被確定的打???并且可能是有史以來最大規(guī)模的、人們可以有意識地與之交互的高強(qiáng)度深層
    的頭像 發(fā)表于 04-19 09:29 ?6101次閱讀

    人類目前只贏了40場比賽,OpenAI Five的勝率高達(dá)99%!

    Arena的面向大眾的競技場中,許多人已經(jīng)開始嘗試對打AI。到目前為止,OpenAI Five對戰(zhàn)人類的勝率達(dá)到99.3%。不過,Dota
    的頭像 發(fā)表于 04-23 10:48 ?3425次閱讀

    人工智能戰(zhàn)隊OpenAI將戰(zhàn)Dota2人類最強(qiáng)戰(zhàn)隊的最終決戰(zhàn)

    人工智能戰(zhàn)隊OpenAI將戰(zhàn)Dota2人類最強(qiáng)戰(zhàn)隊,人工智能在圍棋上擊敗人類之后,很多技術(shù)人員就開始展望 AI 在視頻游戲中的表現(xiàn)了。2017 年的
    發(fā)表于 07-04 11:09 ?1903次閱讀

    OpenAI發(fā)布Microscope以可視化機(jī)器學(xué)習(xí)模型中的神經(jīng)

    OpenAI今天發(fā)布了Microscope,這是一神經(jīng)元可視化庫,從九流行的或大量的神經(jīng)網(wǎng)絡(luò)開始
    的頭像 發(fā)表于 04-15 21:10 ?3296次閱讀