人妻无码字幕成人午夜性爱,无码免费观看日韩

訓(xùn)練先進(jìn)的人工智能系統(tǒng)所需的巨大計(jì)算資源意味著，經(jīng)驗(yàn)豐富的科技公司將學(xué)術(shù)團(tuán)隊(duì)置于塵埃中。但是一種新方法可以幫助平衡規(guī)模，使科學(xué)家可以在一臺計(jì)算機(jī)上解決最先進(jìn)的AI問題。

OpenAI 2018年的一份報(bào)告發(fā)現(xiàn)，用于訓(xùn)練最強(qiáng)大的人工智能的處理能力正以驚人的速度增長，每3.4個(gè)月翻一番。最需要數(shù)據(jù)的方法之一是深度強(qiáng)化學(xué)習(xí)，其中AI通過遍歷數(shù)百萬次仿真來通過反復(fù)試驗(yàn)來學(xué)習(xí)。電子游戲如《星際爭霸》和《Dota2》的最新進(jìn)展都依賴于裝有數(shù)百個(gè)CPU和GPU的服務(wù)器。

諸如Cerebras System的Wafer Scale Engine之類的專用硬件有望用完美優(yōu)化用于訓(xùn)練AI的單個(gè)大型芯片來取代這些機(jī)架式處理器。但是，由于價(jià)格高達(dá)數(shù)百萬美元，對于資金不足的研究人員來說，這并不是什么安慰。

現(xiàn)在，來自南加州大學(xué)和英特爾實(shí)驗(yàn)室的一個(gè)團(tuán)隊(duì)已經(jīng)發(fā)明了一種在學(xué)術(shù)實(shí)驗(yàn)室中常用的硬件上訓(xùn)練深度強(qiáng)化學(xué)習(xí)（reinforcement learning，RL）算法的方法。在近日舉行的2020國際機(jī)器學(xué)習(xí)大會（International Conference on Machine Learning，ICML）上發(fā)表的一篇論文中，他們描述了如何能夠使用一個(gè)高端工作站來訓(xùn)練人工智能，在第一人稱射擊游戲Doom上擁有最先進(jìn)的表現(xiàn)。他們還使用一小部分正常計(jì)算能力來解決DeepMind提出的30種多樣化3D挑戰(zhàn)套件。

德州大學(xué)奧斯汀分校（University of Texas at Austin）專門研究深度RL的教授Peter Stone說：“發(fā)明對商品硬件進(jìn)行深度RL的方法是一個(gè)了不起的研究目標(biāo)。并且，除了將較小的研究小組拋在身后之外，進(jìn)行此類研究通常所需的計(jì)算資源也會產(chǎn)生大量的碳足跡。”

USC研究生的主要作者Aleksei Petrenko說，該項(xiàng)目的靈感來自于必須成為發(fā)明之母的經(jīng)典案例。隨著在英特爾的暑期實(shí)習(xí)期結(jié)束，Petrenko失去了進(jìn)入該公司的超級計(jì)算集群的權(quán)限，這使尚未完成的深度RL項(xiàng)目陷入危險(xiǎn)之中。因此，他和同事決定找到一種方法來繼續(xù)進(jìn)行簡單系統(tǒng)的工作。

使用一臺配備36核CPU和一個(gè)GPU的機(jī)器，研究人員能夠在接受Atari視頻游戲和Doom訓(xùn)練時(shí)每秒處理大約14萬幀圖像，或者是次優(yōu)方法的兩倍。

Using a single machine equipped with a 36-core CPU and one GPU, the researchers were able to process roughly 140,000 frames per second while training on Atari videogames and Doom, or double the next best approach.

“根據(jù)我的經(jīng)驗(yàn)，很多研究人員無法接觸到尖端的、花哨的硬件，”Petrenko說?！拔覀円庾R到，只要重新考慮如何最大限度地提高硬件利用率，實(shí)際上就可以接近通常從大型集群中擠出的性能，即使是在單個(gè)工作站上。”

深度RL的主要方法是將AI代理置于一個(gè)模擬環(huán)境中，該環(huán)境為實(shí)現(xiàn)特定目標(biāo)提供獎勵，agent將此作為反饋來制定最佳策略。這涉及三個(gè)主要的計(jì)算工作：模擬環(huán)境和代理；根據(jù)學(xué)習(xí)到的規(guī)則（稱為策略）決定下一步要做什么；以及使用這些操作的結(jié)果來更新策略。

Petrenko說，培訓(xùn)總是受到最慢流程的限制，但這三個(gè)工作通常在標(biāo)準(zhǔn)的深層次RL方法中交織在一起，因此很難單獨(dú)優(yōu)化它們。研究人員的新方法被稱為“樣本工廠（Sample Factory）”，將它們分開，這樣就可以投入資源讓它們都以峰值速度運(yùn)行。

Petrenko解釋說，進(jìn)程之間的管道數(shù)據(jù)是另一個(gè)主要瓶頸，因?yàn)檫@些數(shù)據(jù)通常會分布在多臺機(jī)器上。他的團(tuán)隊(duì)利用在一臺機(jī)器上工作的優(yōu)勢，只需將所有數(shù)據(jù)塞進(jìn)共享內(nèi)存中，所有進(jìn)程都可以即時(shí)訪問這些數(shù)據(jù)。

與領(lǐng)先的深度RL方法相比，這形成了顯著的加速。使用一臺配備36核CPU和一個(gè)GPU的機(jī)器，研究人員能夠在接受Atari視頻游戲和Doom訓(xùn)練時(shí)每秒處理大約14萬幀圖像，或者是次優(yōu)方法的兩倍。在三維訓(xùn)練環(huán)境DeepMind實(shí)驗(yàn)室中，他們每秒的幀數(shù)為40000幀，比第二名高出15%。

為了檢查幀速率是如何轉(zhuǎn)化為訓(xùn)練時(shí)間的，研究小組將樣本工廠（Sample Factory）與谷歌大腦（Google Brain）在3月份開源的一種算法進(jìn)行了比較，該算法旨在顯著提高深度RL的效率。研究小組還在DeepMind實(shí)驗(yàn)室用一臺功能更強(qiáng)大的36核4-GPU機(jī)器，對30個(gè)挑戰(zhàn)進(jìn)行了測試。由此產(chǎn)生的人工智能的性能明顯優(yōu)于DeepMind用來應(yīng)對挑戰(zhàn)的原始人工智能，后者是在大型計(jì)算集群上訓(xùn)練的。

雖然論文中使用的計(jì)算機(jī)仍然是為人工智能研究而設(shè)計(jì)的高端工作站，但Petrenko說，他和他的合作者也一直在更簡單的設(shè)備上使用樣品工廠。他說，他甚至可以在他的中檔游戲筆記本電腦上進(jìn)行一些高級的深度RL實(shí)驗(yàn)?！斑@是前所未聞的?！?/p>

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴