91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

<button id="ygy4o"></button>

<code id="ygy4o"></code>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統(tǒng)消息
評論與回復(fù)

查看更多

查看更多

查看更多

VIP于到期續(xù)費

登錄后你可以

下載海量資料
學(xué)習(xí)在線課程
觀看技術(shù)視頻
寫文章/發(fā)帖/加入社區(qū)

會員中心

創(chuàng)作中心

發(fā)布

創(chuàng)作活動

完善資料讓更多小伙伴認(rèn)識你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

為什么DeepMind的科學(xué)家們對星際爭霸如此癡迷

北京時間 1 月 25 日凌晨 2 點， DeepMind 直播了他們的 AI AlphaStar 和人類頂尖的職業(yè)電競選手對戰(zhàn)星際爭霸 2。根據(jù) DeepMind 介紹，AlphaStar 在 2018 年 12 月 10 日和 19 日先后以 5：0 全勝的戰(zhàn)績擊敗了 2 位國際頂級的人類選手，此次直播的過程中也播放了之前比賽的重放。雖然 AlphaStar 在最后一場現(xiàn)場直播的比賽中惜敗，但是仍然保持對人類 10 勝 1 敗的戰(zhàn)績。

星際在全球玩家眾多，是最流行的一款實時策略游戲之一，而 DeepMind 匯聚了全球最頂尖的人工智能科學(xué)家，似乎兩者出現(xiàn)在同一個場景里有些違和。大眾刻板印象里面，科學(xué)家一般都與實驗科研為伍，怎么會對玩星際感興趣呢？

其實如果大家對于 DeepMind 這個公司有所了解的話，就會發(fā)現(xiàn)這個世界一流的人工智能團(tuán)隊實際就是一路打游戲過來的。DeepMind 的創(chuàng)始人 Demis Hassabis 自小酷愛國際象棋，13 歲就成為了國際象棋大師。之后他于 2010 年成立 DeepMind，專門開發(fā)能夠玩游戲的人工智能。這個時候人工智能領(lǐng)域大火，DeepMind 順勢推出了自己的深度強(qiáng)化學(xué)習(xí) (Deep Reinforcement Learning)，并于 2014 年在 Atari 游戲里面超過了人類水平。2014 年之后 DeepMind 被 Google 收購，借助 Google 的資源優(yōu)勢繼續(xù)研發(fā)，從此在游戲領(lǐng)域一騎絕塵。2016 年和 2017 年 DeepMind 的 AI 先后戰(zhàn)勝圍棋世界冠軍李世石和柯潔。接著 DeepMind 又推出了 AlphaZero，完全不借助人類棋譜，幾個小時之內(nèi)就在圍棋，國際象棋和日本將棋上超過了人類水平。

DeepMind 之所以對于游戲如此熱衷，除了創(chuàng)始人的游戲情節(jié)以外，最關(guān)鍵的還是游戲本身就是絕佳的人工智能測試環(huán)境。游戲就是人為創(chuàng)造的，用以幫助人來習(xí)得某個技能或者測試技能水平的工具。游戲通過提供明確的反饋，使人可以在短期內(nèi)不斷重復(fù)某些行為，從而習(xí)得技能。比如很多棋類游戲的設(shè)計初衷就是鍛煉分析決策能力。當(dāng)然也有專門用來讓人獲得愉悅的游戲，比如說許多網(wǎng)絡(luò)游戲。這些游戲一般會有很強(qiáng)獎勵（比如獲得金幣之類），獲得獎勵的速度也很快，這就是這類游戲容易讓人沉迷的原因。

回過頭來說星際本身。為什么 DeepMind 的科學(xué)家們看中了這么一款游戲呢？原因主要是星際爭霸有這樣兩個特點：

第一星際爭霸的動作空間和策略非常復(fù)雜。圍棋雖然每次落子的變化也很多，但是每次畢竟只是需要根據(jù)盤面挑選落子地方，還算比較簡單。相對而言，星際爭霸里面的的動作空間就很復(fù)雜，玩家需要：

1）積累資源

2）建設(shè)工廠

3）組建軍隊

4）消滅對方的工事

每一個動作之間相互有影響，許多動作產(chǎn)生的后果是很長期的

第二玩家沒有全部的信息。基本上來說玩家只知道顯示在屏幕上面的一小部分區(qū)域的信息。而真正的地圖是很大。所以如果他們想要知道對手的信息，需要派出專門的偵查兵

為了這次的對戰(zhàn)，DeepMind 其實已經(jīng)準(zhǔn)備已久。去年 DeepMind 和暴雪聯(lián)合推出了基于星際爭霸 2 的強(qiáng)化學(xué)習(xí)測試平臺并且發(fā)布了論文《StarCraft II: A New Challenge for Reinforcement Learning》。這次參與對戰(zhàn)的 AI 也是從這個平臺上訓(xùn)練得到的。這里主要解答一些大家可能關(guān)心的問題。AlphaStar 的視角能夠看到的是什么信息？它的操作和人是否一樣？有沒有作弊？

AlphaStar 到底是看到的什么呢？

我們都知道人類玩家在玩星際的時候看到的是計算機(jī)屏幕的信息（如果是團(tuán)戰(zhàn)可能還會有場下交流）。計算機(jī)屏幕上面的信息是標(biāo)準(zhǔn)的視頻流。人類玩家首先做的實際上是識別哪個士兵，哪個是工廠。在計算機(jī)視覺里面，這些被稱為物體識別和場景識別任務(wù)。值得一提的是識別這些人物本身很困難，但和策略的部分關(guān)系不大。所以 Deepmind 對問題進(jìn)行了一些簡化。 AlphaStar 以圖像的方式從游戲引擎里面讀取特征信息，這些圖像直接標(biāo)記了哪里是兵或者工廠。你可以想象，AlphaStar 有很多只眼睛，有的看到兵，有的看到所有的工廠。除了計算機(jī)屏幕上面的信息，AlphaStar 還可以看到一個粗略的全景地圖，可以另外知道一些全局的信息，比如當(dāng)前有多少資源，多少兵力等等。AlphaStar 看到的視角實際上長得像是下面這個樣子。

那么 AlphaStar 是怎么進(jìn)行操作呢？

人類玩家都知道玩星際很多時候是拼手速。操作速度快的人基本可以碾壓操作速度慢的人。人類一般一分鐘進(jìn)行 30 到 300 次操作。最厲害的人類選手大概是每分鐘 500 次操作。理論上計算機(jī)的操作速度遠(yuǎn)遠(yuǎn)超過人類，所以如果不限定操作速度的話，比較基本上沒有意義了。在 DeepMind 發(fā)布的工具包里面，操作速度被限制為每分鐘 180 次。除此以外，DeepMind 盡量讓 AlphaStar 的操作和人的操作是一樣的。人類玩家的正常操作一般來說是一個鼠標(biāo)鍵盤序列。比如說要移動兵的話，人一般會先按 m 代表進(jìn)入 move 操作，再按 shift 同時點擊要移動的兵。AlphaStar 的操作也會產(chǎn)生類似的序列。

根據(jù)上面的信息，我們知道 AlphaStar 的輸入和輸出其實和人類選手是差不多的，并沒有特殊作弊的行為。從這次的比賽視頻來看，AlphaStar 在選擇策略上如同職業(yè)選手般嫻熟，非常令人驚嘆。那么 Deepmind 大概是用了什么樣的方法來訓(xùn)練 AlphaStar 的呢？Deepmind 在賽后發(fā)布了一篇博客進(jìn)行了介紹。據(jù)說相應(yīng)的論文正在同行評議中，相信不久就會將看到細(xì)節(jié)。這里我結(jié)合博客內(nèi)容和我自己相關(guān)的經(jīng)驗進(jìn)行下簡單介紹。

Deepmind AI 的深度網(wǎng)絡(luò)由多個模塊構(gòu)成，看起來主要的網(wǎng)絡(luò)是一個被稱為 Transformer 和 LSTM 的網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建。這類網(wǎng)絡(luò)最重要的特點就是有很長的記憶能力，可以在很長的序列里面自動找到數(shù)據(jù)中的關(guān)聯(lián)，早期這類網(wǎng)絡(luò)是在自然語言處理里面成熟的。之所以這次使用這樣的網(wǎng)絡(luò)結(jié)構(gòu)，我猜測主要是星際里面的很多動作的影響時間很長，比如說開始建一個工廠到真正這個工廠開始能夠提供物資需要過很久。訓(xùn)練的過程和初代版的 AlphaGo 類似，結(jié)合了有監(jiān)督學(xué)習(xí) (Supervised Learning) 和強(qiáng)化學(xué)習(xí) (Reinforcement Learning)。這兩種學(xué)習(xí)方法其實我們?nèi)祟愐渤Ｓ?— 有監(jiān)督學(xué)習(xí)相當(dāng)于從課本上面學(xué)習(xí)，而強(qiáng)化學(xué)習(xí)像是從實踐中摸索。有監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)并用，就相當(dāng)一個人先從課本上學(xué)習(xí)大概知識然后學(xué)以致用，在實踐中不斷改進(jìn)。

在 AlphaStar 中，第一步的訓(xùn)練是在暴雪提供的數(shù)據(jù)集上進(jìn)行的有監(jiān)督學(xué)習(xí)。據(jù) DeepMind 稱，經(jīng)過有監(jiān)督學(xué)習(xí)，AlphaStar 對暴雪的內(nèi)置 AI 能保持 95% 上的勝率。接下來很多經(jīng)過有監(jiān)督學(xué)習(xí)的 AlphaStar 進(jìn)行聯(lián)賽 (League)，相互對打，在這個過程中使用強(qiáng)化學(xué)習(xí)不斷提升能力。下面這個圖展示了這兩個階段水平的提升。

可以看出，有監(jiān)督學(xué)習(xí)使得 AlphaStar 達(dá)到人類中的金牌水平（Gold Level），在進(jìn)行了 8 天強(qiáng)化學(xué)習(xí)之后，AlphaStar 最終超過人類選手 TLO。14 天之后超過了人類選手 MaNa。值得一提的是，在 14 天的強(qiáng)化學(xué)習(xí)訓(xùn)練期間，每個 AlphaStar 相當(dāng)于完成了 200 年的游戲試驗。尤其是多個 AlphaStar 相互對戰(zhàn)，需要的計算量極其巨大。為了加快計算速度 DeepMind 使用了 Google's v3 TPU （向量計算單元）開發(fā)了一個分布式訓(xùn)練系統(tǒng)。TPU (Tensor processing unit) 是 Google 開發(fā)的專門用于人工智能的處理器，從 2016 年推出，至今已經(jīng)演進(jìn)到第三代。每一個 AlphaStar 智能體使用了 16 塊三代 TPU，這是相當(dāng)驚人的計算能力 — 要知道幾個小時滅掉 AlphaGo 的 AlphaZero 在對弈的時候也不過只用了 4 塊一代 TPU。

AlphaStar 之所以能夠使用 TPU 的強(qiáng)大算力，得益于從 16 年起 Deepmind 將主要研究平臺轉(zhuǎn)移到了 TensorFlow 上面。TensorFlow 是 Google 開發(fā)的開源機(jī)器學(xué)習(xí)平臺，如今也是最受歡迎機(jī)器學(xué)習(xí)系統(tǒng)之一。TPU 就是專門為 TensorFlow 開發(fā)的硬件。除了 DeepMind 以外，Google 大部分的人工智能系統(tǒng)也都是基于 TensorFlow。

芯片領(lǐng)域有一個摩爾定律，就是計算力隨著時間是指數(shù)增長的。其實人工智能領(lǐng)域也有著類似的規(guī)律，比如說 AlphaGo 對陣?yán)钍朗臅r候人類尚可一戰(zhàn)，不久之后對戰(zhàn)柯潔人已經(jīng)完全不在一個量級。相信隨著時間的前進(jìn)，AlphaStar 也會不斷的強(qiáng)大，同時在更多的問題上人工智能也會超過人類。許多人因此擔(dān)憂人會隨著人工智能的發(fā)展人變得多余。其實我們大可不必?fù)?dān)憂，雖然如今人工智能在許多地方取得了不俗的成就，但其本質(zhì)仍然是人類的工具。人類歷史其實就是一個不斷的發(fā)明創(chuàng)造新的工具的歷史，從火的使用，到蒸汽機(jī)，再到如今的人工智能，無一不是如此。在新的時代，新的人類必然會懂得如何去使用全新的工具。AlphaStar 的星際爭霸首秀，可能是這個新的時代的又一個序章。回到文初的問題，為什么科學(xué)家們會對星際爭霸如此癡迷 — 因為這不僅是游戲里的星際，更是人類的星辰大海。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1817

文章
50091

瀏覽量
265236
DeepMind

DeepMind

+關(guān)注

關(guān)注
0

文章
131

瀏覽量
12282

原文標(biāo)題：AlphaStar 星際首秀，人工智能走向星辰大海

文章出處：【微信號：tensorflowers，微信公眾號：Tensorflowers】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

評論

電子發(fā)燒友

My ElecFans

APP
網(wǎng)站地圖

設(shè)計技術(shù)

可編程邏輯

電源/新能源

MEMS/傳感技術(shù)

測量儀表

嵌入式技術(shù)

制造/封裝

模擬技術(shù)

RF/無線

接口/總線/驅(qū)動

處理器/DSP

EDA/IC設(shè)計

存儲技術(shù)

光電顯示

EMC/EMI設(shè)計

連接器

行業(yè)應(yīng)用

LEDs

汽車電子

音視頻及家電

通信網(wǎng)絡(luò)

醫(yī)療電子

人工智能

虛擬現(xiàn)實

可穿戴設(shè)備

機(jī)器人

安全設(shè)備/系統(tǒng)

軍用/航空電子

移動通信

工業(yè)控制

便攜設(shè)備

觸控感測

物聯(lián)網(wǎng)

智能電網(wǎng)

區(qū)塊鏈

新科技

特色內(nèi)容

專欄推薦

學(xué)院

設(shè)計資源

設(shè)計技術(shù)

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術(shù)文章

產(chǎn)品地圖

品牌地圖

社區(qū)

小組

論壇

問答

評測試用

企業(yè)服務(wù)

產(chǎn)品

資料

文章

方案

企業(yè)

供應(yīng)鏈服務(wù)

硬件開發(fā)

媒體服務(wù)

網(wǎng)站廣告

在線研討會

活動策劃

新聞發(fā)布

新品發(fā)布

小測驗

設(shè)計大賽

電子發(fā)燒友

關(guān)于我們

聯(lián)系我們

舉報投訴

社交網(wǎng)絡(luò)

微博

移動端

發(fā)燒友APP

WAP

聯(lián)系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內(nèi)容合作

張迎輝：mikezhang@elecfans.com

關(guān)注我們的微信

下載發(fā)燒友APP

電子發(fā)燒友觀察

版權(quán)所有 ? 長沙勒克斯教育咨詢有限公司

湖南省長沙市開福區(qū)月湖街道匍園路20號聚恒科技園1棟2301-1房
電子發(fā)燒友 （電路圖） 湘公網(wǎng)安備43011202000918 工商網(wǎng)監(jiān) 湘ICP備2023036445號-105-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级