在蒙特祖瑪?shù)膹?fù)仇(Montezuma's Revenge)和瑪雅人的冒險(xiǎn)(Pitfall!)這兩款游戲里,如果有一個(gè)算法能記住游戲里的探索過(guò)程,那么這個(gè)算法就能幫助計(jì)算機(jī)和機(jī)器人更好地學(xué)習(xí)和適應(yīng)真實(shí)世界。
由懷俄明大學(xué)的副教授 Jeff Clune 領(lǐng)導(dǎo),來(lái)自優(yōu)步在舊金山的人工智能研究團(tuán)隊(duì),提供了一種新型的機(jī)器學(xué)習(xí)算法剛剛攻克了一些對(duì)人工智能來(lái)說(shuō)非常困難的電子游戲。
(圖片來(lái)源:麻省理工科技評(píng)論)
熟悉的人知道,人工智能算法已經(jīng)在古老、優(yōu)雅的策略游戲——圍棋中擊敗了世界上最優(yōu)秀的人類選手,圍棋已經(jīng)是是可以想象到的最困難的游戲之一。但是,來(lái)自上個(gè)世紀(jì)的 8 位計(jì)算機(jī)游戲時(shí)代的兩個(gè)經(jīng)典像素游戲——蒙特祖瑪?shù)膹?fù)仇和瑪雅人的冒險(xiǎn),一直困擾著人工智能研究人員。
這看似矛盾的背后其實(shí)是有原因的。蒙特祖瑪?shù)膹?fù)仇和瑪雅人的冒險(xiǎn)雖然看似簡(jiǎn)單,但對(duì)本來(lái)就擅長(zhǎng)征服電子游戲的強(qiáng)化學(xué)習(xí)來(lái)說(shuō)仍是一大挑戰(zhàn)。DeepMind 是谷歌母公司 Alphabet 的子公司,專注于人工智能領(lǐng)域,以其算法能夠以專業(yè)玩家的水準(zhǔn)來(lái)學(xué)習(xí)幾個(gè)經(jīng)典的電子游戲的而著名。強(qiáng)化學(xué)習(xí)算法在大多數(shù)游戲里效果都不錯(cuò),因?yàn)樗鼈兛梢愿鶕?jù)正反饋(得分升高)調(diào)整他們的行為。強(qiáng)化學(xué)習(xí)的成功使人們產(chǎn)生了希望,認(rèn)為人工智能算法可以自己教會(huì)自己做各種有用的事情,而這目前對(duì)機(jī)器來(lái)說(shuō)是不可能做到的。
蒙特祖瑪?shù)膹?fù)仇和瑪雅人的冒險(xiǎn)的問(wèn)題是所需要的獎(jiǎng)勵(lì)(rewards)信號(hào)很少。兩個(gè)游戲都涉及典型場(chǎng)景:主角要探索充滿致命生物和陷阱的方塊世界,在游戲中許多所必需的行為都無(wú)助于提高分?jǐn)?shù),只在長(zhǎng)時(shí)間完成特定的一系列動(dòng)作之后才會(huì)收到獎(jiǎng)勵(lì)信號(hào)。普通的強(qiáng)化學(xué)習(xí)算法甚至過(guò)不去蒙特祖瑪?shù)膹?fù)仇和瑪雅人的冒險(xiǎn)的第一關(guān),他們得分完全為零。
但是來(lái)自優(yōu)步在舊金山的人工智能研究團(tuán)隊(duì)的算法,在一個(gè)給算法提供線索很少的環(huán)境中展示了一種完全不同的機(jī)器學(xué)習(xí)方法。這種方法引出了一些有趣的實(shí)際應(yīng)用,Clune 和他的團(tuán)隊(duì)在 11 月 26 日發(fā)布的博客文章中寫道,這可能可以應(yīng)用在機(jī)器人學(xué)習(xí)中。這是因?yàn)槲磥?lái)的機(jī)器人需要弄清楚在一個(gè)只提供較少的獎(jiǎng)勵(lì)的復(fù)雜的環(huán)境中應(yīng)該做些什么。
Uber 于 2016 年 12 月建立人工智能實(shí)驗(yàn)室,其目標(biāo)是實(shí)現(xiàn)可能對(duì)其業(yè)務(wù)有用的基礎(chǔ)性突破。更好的強(qiáng)化學(xué)習(xí)算法最終可用于自動(dòng)駕駛和優(yōu)化車輛路線等項(xiàng)目上。
很多人工智能研究人員經(jīng)常通過(guò)指導(dǎo)強(qiáng)化學(xué)習(xí)算法不定時(shí)隨機(jī)探索、同時(shí)為探索過(guò)程增加獎(jiǎng)勵(lì)——也就是所謂的”內(nèi)在動(dòng)機(jī)”(intrinsic motivation), 來(lái)試圖解決蒙特祖瑪?shù)膹?fù)仇與瑪雅人的冒險(xiǎn)遇到的問(wèn)題。
但 Uber 的研究人員認(rèn)為,這種方法忽略了人類探索好奇心的一個(gè)重要角度?!拔覀冋J(rèn)為目前的”內(nèi)在動(dòng)機(jī)”算法的一個(gè)主要弱點(diǎn)是 detachment,”他們寫道,“算法忘記了他們?cè)L問(wèn)過(guò)的有價(jià)值的區(qū)域,他們不會(huì)回到那些區(qū)域,看看是否會(huì)產(chǎn)生新的狀態(tài)?!?/p>
該團(tuán)隊(duì)設(shè)計(jì)了新的強(qiáng)化學(xué)習(xí)算法,稱為 Go-Explore,這種算法可以記住之前的狀態(tài),并會(huì)在隨后返回特定區(qū)域或重復(fù)特定任務(wù),看看這樣做是否會(huì)使效果變好。研究人員還發(fā)現(xiàn),通過(guò)讓人類玩家突出有趣或重要的區(qū)域來(lái)增加一些領(lǐng)域信息時(shí),可以大大加快算法的學(xué)習(xí)過(guò)程。這一過(guò)程非常重要,因?yàn)樵谡鎸?shí)環(huán)境中,有很多情況是需要算法和人一起工作來(lái)解決一項(xiàng)艱巨的任務(wù)的。
他們的算法在蒙特祖瑪?shù)膹?fù)仇中平均得分為 400,000 分——比人類玩家的平均值高出一個(gè)數(shù)量級(jí)。在瑪雅人的冒險(xiǎn)游戲中,平均得分為 21,000,同樣遠(yuǎn)遠(yuǎn)超過(guò)大多數(shù)人類玩家。
“這些結(jié)果令人印象深刻,”研究強(qiáng)化學(xué)習(xí)的斯坦福大學(xué)助理教授 Emma Brunskill 說(shuō),“令人驚訝和興奮的是,這些算法產(chǎn)生了如此巨大的優(yōu)勢(shì)。”
其他人工智能研究人員也一直在努力攻克這些電子游戲。10 月,舊金山的非營(yíng)利組織——OpenAI 的一個(gè)團(tuán)隊(duì),展示了一種能夠在蒙特祖瑪?shù)膹?fù)仇游戲中取得重大進(jìn)展的算法。
就在最近,斯坦福大學(xué)的 Brunskill 小組在瑪雅人的冒險(xiǎn)游戲方面也取得了一些的進(jìn)展,他們使用的方法與 Uber 團(tuán)隊(duì)類似。
現(xiàn)在人工智能算法可以解決這些視頻游戲,真正的挑戰(zhàn)是從街機(jī)游戲中脫離出來(lái),解決現(xiàn)實(shí)問(wèn)題。
Brunskill 同意這種算法可能對(duì)機(jī)器人技術(shù)產(chǎn)生重大影響。但是她表示,在其他現(xiàn)實(shí)世界的情況中,特別是那些涉及人類行為建模的情況,要遠(yuǎn)遠(yuǎn)困難得多?!跋肟纯催@種方法對(duì)于更復(fù)雜的環(huán)境表現(xiàn)的如何,這將非常有趣,”她說(shuō)。
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
31200瀏覽量
222969 -
算法
+關(guān)注
關(guān)注
23文章
4786瀏覽量
98258 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8558瀏覽量
137079
原文標(biāo)題:Uber公司設(shè)計(jì)新型AI算法,有望對(duì)機(jī)器人工作產(chǎn)生巨大影響
文章出處:【微信號(hào):IEEE_China,微信公眾號(hào):IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
人工智能與機(jī)器學(xué)習(xí)在這些行業(yè)的深度應(yīng)用
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個(gè)常見(jiàn)錯(cuò)誤與局限性
利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能
挖到寶了!人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器
挖到寶了!比鄰星人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器!
超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級(jí)芯片(SoC)上解鎖邊緣人工智能應(yīng)用.
人工智能在汽車行業(yè)中的應(yīng)用
人工智能究竟對(duì)電子產(chǎn)業(yè)產(chǎn)生哪些的影響?
FPGA在機(jī)器學(xué)習(xí)中的具體應(yīng)用
CES Asia 2025蓄勢(shì)待發(fā),聚焦低空經(jīng)濟(jì)與AI,引領(lǐng)未來(lái)產(chǎn)業(yè)新變革
最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門學(xué)習(xí)課程參考2025版(大模型篇)
人工智能是做什么的
機(jī)器人主控芯片平臺(tái)有哪些 機(jī)器人主控芯片一文搞懂
一種新型的機(jī)器學(xué)習(xí)算法剛剛攻克了一些對(duì)人工智能來(lái)說(shuō)非常困難的電子游戲
評(píng)論