訓(xùn)練先進(jìn)的人工智能系統(tǒng)所需的巨大計(jì)算資源意味著,經(jīng)驗(yàn)豐富的科技公司將學(xué)術(shù)團(tuán)隊(duì)置于塵埃中。但是一種新方法可以幫助平衡規(guī)模,使科學(xué)家可以在一臺計(jì)算機(jī)上解決最先進(jìn)的AI問題。
OpenAI 2018年的一份報(bào)告發(fā)現(xiàn),用于訓(xùn)練最強(qiáng)大的人工智能的處理能力正以驚人的速度增長,每3.4個(gè)月翻一番。最需要數(shù)據(jù)的方法之一是深度強(qiáng)化學(xué)習(xí),其中AI通過遍歷數(shù)百萬次仿真來通過反復(fù)試驗(yàn)來學(xué)習(xí)。電子游戲如《星際爭霸》和《Dota2》的最新進(jìn)展都依賴于裝有數(shù)百個(gè)CPU和GPU的服務(wù)器。
諸如Cerebras System的Wafer Scale Engine之類的專用硬件有望用完美優(yōu)化用于訓(xùn)練AI的單個(gè)大型芯片來取代這些機(jī)架式處理器。但是,由于價(jià)格高達(dá)數(shù)百萬美元,對于資金不足的研究人員來說,這并不是什么安慰。
現(xiàn)在,來自南加州大學(xué)和英特爾實(shí)驗(yàn)室的一個(gè)團(tuán)隊(duì)已經(jīng)發(fā)明了一種在學(xué)術(shù)實(shí)驗(yàn)室中常用的硬件上訓(xùn)練深度強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)算法的方法。在近日舉行的2020國際機(jī)器學(xué)習(xí)大會(International Conference on Machine Learning,ICML)上發(fā)表的一篇論文中,他們描述了如何能夠使用一個(gè)高端工作站來訓(xùn)練人工智能,在第一人稱射擊游戲Doom上擁有最先進(jìn)的表現(xiàn)。他們還使用一小部分正常計(jì)算能力來解決DeepMind提出的30種多樣化3D挑戰(zhàn)套件。
德州大學(xué)奧斯汀分校(University of Texas at Austin)專門研究深度RL的教授Peter Stone說:“發(fā)明對商品硬件進(jìn)行深度RL的方法是一個(gè)了不起的研究目標(biāo)。并且,除了將較小的研究小組拋在身后之外,進(jìn)行此類研究通常所需的計(jì)算資源也會產(chǎn)生大量的碳足跡。”
USC研究生的主要作者Aleksei Petrenko說,該項(xiàng)目的靈感來自于必須成為發(fā)明之母的經(jīng)典案例。隨著在英特爾的暑期實(shí)習(xí)期結(jié)束,Petrenko失去了進(jìn)入該公司的超級計(jì)算集群的權(quán)限,這使尚未完成的深度RL項(xiàng)目陷入危險(xiǎn)之中。因此,他和同事決定找到一種方法來繼續(xù)進(jìn)行簡單系統(tǒng)的工作。
使用一臺配備36核CPU和一個(gè)GPU的機(jī)器,研究人員能夠在接受Atari視頻游戲和Doom訓(xùn)練時(shí)每秒處理大約14萬幀圖像,或者是次優(yōu)方法的兩倍。
Using a single machine equipped with a 36-core CPU and one GPU, the researchers were able to process roughly 140,000 frames per second while training on Atari videogames and Doom, or double the next best approach.
“根據(jù)我的經(jīng)驗(yàn),很多研究人員無法接觸到尖端的、花哨的硬件,”Petrenko說?!拔覀円庾R到,只要重新考慮如何最大限度地提高硬件利用率,實(shí)際上就可以接近通常從大型集群中擠出的性能,即使是在單個(gè)工作站上。”
深度RL的主要方法是將AI代理置于一個(gè)模擬環(huán)境中,該環(huán)境為實(shí)現(xiàn)特定目標(biāo)提供獎勵,agent將此作為反饋來制定最佳策略。這涉及三個(gè)主要的計(jì)算工作:模擬環(huán)境和代理;根據(jù)學(xué)習(xí)到的規(guī)則(稱為策略)決定下一步要做什么;以及使用這些操作的結(jié)果來更新策略。
Petrenko說,培訓(xùn)總是受到最慢流程的限制,但這三個(gè)工作通常在標(biāo)準(zhǔn)的深層次RL方法中交織在一起,因此很難單獨(dú)優(yōu)化它們。研究人員的新方法被稱為“樣本工廠(Sample Factory)”,將它們分開,這樣就可以投入資源讓它們都以峰值速度運(yùn)行。
Petrenko解釋說,進(jìn)程之間的管道數(shù)據(jù)是另一個(gè)主要瓶頸,因?yàn)檫@些數(shù)據(jù)通常會分布在多臺機(jī)器上。他的團(tuán)隊(duì)利用在一臺機(jī)器上工作的優(yōu)勢,只需將所有數(shù)據(jù)塞進(jìn)共享內(nèi)存中,所有進(jìn)程都可以即時(shí)訪問這些數(shù)據(jù)。
與領(lǐng)先的深度RL方法相比,這形成了顯著的加速。使用一臺配備36核CPU和一個(gè)GPU的機(jī)器,研究人員能夠在接受Atari視頻游戲和Doom訓(xùn)練時(shí)每秒處理大約14萬幀圖像,或者是次優(yōu)方法的兩倍。在三維訓(xùn)練環(huán)境DeepMind實(shí)驗(yàn)室中,他們每秒的幀數(shù)為40000幀,比第二名高出15%。
為了檢查幀速率是如何轉(zhuǎn)化為訓(xùn)練時(shí)間的,研究小組將樣本工廠(Sample Factory)與谷歌大腦(Google Brain)在3月份開源的一種算法進(jìn)行了比較,該算法旨在顯著提高深度RL的效率。研究小組還在DeepMind實(shí)驗(yàn)室用一臺功能更強(qiáng)大的36核4-GPU機(jī)器,對30個(gè)挑戰(zhàn)進(jìn)行了測試。由此產(chǎn)生的人工智能的性能明顯優(yōu)于DeepMind用來應(yīng)對挑戰(zhàn)的原始人工智能,后者是在大型計(jì)算集群上訓(xùn)練的。
雖然論文中使用的計(jì)算機(jī)仍然是為人工智能研究而設(shè)計(jì)的高端工作站,但Petrenko說,他和他的合作者也一直在更簡單的設(shè)備上使用樣品工廠。他說,他甚至可以在他的中檔游戲筆記本電腦上進(jìn)行一些高級的深度RL實(shí)驗(yàn)?!斑@是前所未聞的?!?/p>
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7824瀏覽量
93362 -
AI
+關(guān)注
關(guān)注
91文章
40578瀏覽量
302163 -
人工智能系統(tǒng)
+關(guān)注
關(guān)注
0文章
39瀏覽量
10876
原文標(biāo)題:現(xiàn)在可以在一臺計(jì)算機(jī)上訓(xùn)練強(qiáng)大的AI啦
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
中興通訊崔麗受邀出席2025騰沖科學(xué)家論壇
深圳中國首個(gè)光量子計(jì)算機(jī)制造工廠落成
NVIDIA DGX Spark助力構(gòu)建自己的AI模型
科學(xué)家利用微波激光照射鉆石,制造出時(shí)間準(zhǔn)晶體
國際類腦計(jì)算科學(xué)家Yulia Sandamirskaya教授加盟時(shí)識科技
NVIDIA DGX Spark桌面AI計(jì)算機(jī)開啟預(yù)訂
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+可期之變:從AI硬件到AI濕件
工業(yè)計(jì)算機(jī)與商用計(jì)算機(jī)的區(qū)別有哪些
創(chuàng)龍 瑞芯微 RK3562 國產(chǎn) 2GHz 四核A53 工業(yè)開發(fā)板—Linux開發(fā)環(huán)境搭建
NVIDIA驅(qū)動的現(xiàn)代超級計(jì)算機(jī)如何突破速度極限并推動科學(xué)發(fā)展
高性能計(jì)算集群在AI領(lǐng)域的應(yīng)用前景
地物光譜儀如何幫助科學(xué)家研究植被和土壤?
使用CY3014USB芯片組制作了一臺相機(jī),視頻顯示延遲怎么解決?
一文帶你了解工業(yè)計(jì)算機(jī)尺寸
科學(xué)家可以在一臺計(jì)算機(jī)上解決最先進(jìn)的AI問題
評論