?本文由奇異摩爾編譯自Semiengineering
國際能源署(IEA)報告指出,2020年,全球數(shù)據(jù)中心的用電量為200-250TWh,占約1%的全球總電力需求。而來自幾個大型網(wǎng)絡(luò)運營商的數(shù)據(jù)表明,能源效率的提高有助于將數(shù)據(jù)流量與能源使用脫鉤。在芯片功耗方面,任何幅度的降低都將大有助益,Chiplet設(shè)計的應(yīng)用被認(rèn)為可能有助于控制人工智能的電力消耗。
3D Chiplet設(shè)計能有效應(yīng)對高性能計算挑戰(zhàn),在近年來受到了越來越多高性能計算、AI芯片廠商的關(guān)注。在制程不變的情況下,基于異構(gòu)計算的Chiplet能帶來算力的持續(xù)增長,實現(xiàn)大芯片功耗的大幅下降。不論對企業(yè)增長,還是對世界能源未來,都是一項值得推進(jìn)的舉措。
----Kiwimoore”
機(jī)器學(xué)習(xí)正在消耗過多的能源,這種模式成本高昂、效率低下且不可持續(xù)。
很大程度上,機(jī)器學(xué)習(xí)是一個全新、令人興奮的且正在迅速增長的領(lǐng)域。機(jī)器學(xué)習(xí)原本的設(shè)計目的是在準(zhǔn)確性和性能方面實現(xiàn)新的突破。但在今天,往往也意味著更大的模型和更大的訓(xùn)練集,需要指數(shù)級增長的算力,訓(xùn)練和推理都會在數(shù)據(jù)中心消耗大量電力。
機(jī)器學(xué)習(xí)所耗費的功率數(shù)目令人觸目驚心。在最近的Design Automation Conference上,AMD 首席技術(shù)官 Mark Papermaster 展示了一張幻燈片,展示了 ML 系統(tǒng)的能耗(圖1)與世界能源產(chǎn)量的對比。

圖 1:ML 的能耗。資料來源:AMD
并非只有Papermaster在敲響警鐘。"我們已經(jīng)忘記了,過去100年創(chuàng)新的驅(qū)動力是效率,"Perceive的首席執(zhí)行官Steve Teig說。"這就是推動摩爾定律的原因。我們現(xiàn)在正處在一個反效率的時代。"
而Synopsys董事長兼首席執(zhí)行官 Aart de Geus代表地球植物生態(tài)懇求對此有所行動?!澳芾斫膺@件事的人,也應(yīng)當(dāng)有所做為?!?/p>
為什么能源消耗上升得如此之快?“神經(jīng)網(wǎng)絡(luò)的計算需求是無法滿足的,” Arm研究員兼高級技術(shù)總監(jiān) Ian Bratt 說?!熬W(wǎng)絡(luò)越大,結(jié)果越好,你能解決的問題就越多。能源的使用與網(wǎng)絡(luò)規(guī)模成正比。因此,為了能夠采用越來越復(fù)雜的神經(jīng)網(wǎng)絡(luò)和增強(qiáng)的用例,如實時語音和視覺應(yīng)用,節(jié)能推理是絕對必要的?!?/p>
不幸的是,并不是每個人都關(guān)心效率問題。Mythic 負(fù)責(zé)產(chǎn)品和業(yè)務(wù)開發(fā)的高級副總裁 Tim Vehling 說:“你可以去看看超大規(guī)模公司在做什么,他們正在努力獲得更好、更準(zhǔn)確的語音識別、語音文字識別、智能推薦系統(tǒng)?!?“這是一個跟錢直接掛鉤的問題。精確度越高,他們能服務(wù)的客戶就越多,也就能產(chǎn)生更多的利潤??纯磾?shù)據(jù)中心的訓(xùn)練和這些非常大的NLP模型的推理,那是消耗大量電力的地方。而且我不知道在這些應(yīng)用中是否有任何動力來優(yōu)化電力。"
當(dāng)然,也有人的確在乎。Synopsys 的科學(xué)家 Alexander Wakefield 說:“有一些商業(yè)壓力要減少這些公司的碳影響,不是直接的財務(wù)政策,更重要的是部分消費者開始只接受碳中和的解決方案?!?“這是來自綠色能源方面的壓力,如果這些供應(yīng)商之一說他們是碳中和的,更多的消費者可能會愿意埋單。"
但并非所有能源都是在云中被消耗的。越來越多的智能邊緣設(shè)備也導(dǎo)致了這個問題。"Aspinity公司戰(zhàn)略和技術(shù)營銷總監(jiān)Marcie Weinstein說:“有數(shù)十億臺的設(shè)備構(gòu)成了物聯(lián)網(wǎng),在不遠(yuǎn)的將來的某個時間點,它們將會耗費掉比我們在世界上產(chǎn)生的更多的電力?!?“消耗電力來收集和傳輸,并要用收集的數(shù)據(jù)做所需要的任何事情?!?/p>

圖 2:邊緣處理的低效率。資料來源:Aspinity/ IHS / SRC
降低功耗
過去,科技界依靠半導(dǎo)體的縮放來使產(chǎn)品更加節(jié)能?!暗覀兊墓に嚰夹g(shù)正在接近物理極限” Arteris IP研究員兼系統(tǒng)架構(gòu)師 Michael Frank 說。?“晶體管寬度在二氧化硅的 10 到 20 晶格常數(shù)之間。我們有更多帶有雜散電容的電線,并且在這些電線的充電和放電過程中會損失大量能量。在進(jìn)入非線性區(qū)域之前,我們無法顯著的降低電壓,在該區(qū)域中,操作的結(jié)果是統(tǒng)計描述的,而不是確定性的。從技術(shù)方面來說,我無法給大家描述一個更好的未來。然而,有一個事實是,有一種設(shè)備只需要消耗大約 20 瓦就完成所有這些事情,包括學(xué)習(xí)。這就是所謂的大腦?!?/p>
那么 ML 是否比替代方案更有效?ICVS 產(chǎn)品經(jīng)理 Joe Hupcey 說:“必須從其應(yīng)用系統(tǒng)的角度考慮 ML 的功耗,其中權(quán)衡取決于包含 ML 與整個系統(tǒng)的功率配置文件所帶來的整體性能增益。”適用于西門子 EDA?!霸谠S多應(yīng)用領(lǐng)域中,業(yè)界已經(jīng)開發(fā)出高效的 ML FPGA 和 ASIC,以降低訓(xùn)練和推理的功耗,并且正在進(jìn)行大量投資來延續(xù)這一趨勢。”
有一個影響可能迫使人們更加關(guān)注功率。"因為熱問題的存在,一些公司正在研究每平方微米的功率" Synopsys公司的科學(xué)家Godwin Maben說。"每個人都在擔(dān)心發(fā)熱問題。當(dāng)你在一個小區(qū)域內(nèi)把大量的gate堆在一起時,功率密度很高,溫度上升,你就會接近熱失控。功率密度現(xiàn)在正限制著性能。作為一個EDA供應(yīng)商,我們不僅僅關(guān)注功率,因為當(dāng)熱能進(jìn)入畫面時,每瓦的性能,然后是每平方微米的每瓦性能,就變得很重要了。"
有幾種方法 “我通常喜歡查看每次推斷的能量,而不是功率,”西門子 EDA 的 HLS 平臺總監(jiān) Russ Klein 說?!皢慰垂β士赡苡悬c誤導(dǎo)。例如,通常 CPU 比 GPU 消耗更少的功率。但 GPU 執(zhí)行推理的速度比 CPU 快得多。結(jié)果是,如果我們查看每次推理的功率,GPU 可以使用 CPU 所需能量的一小部分來執(zhí)行推理?!?/p>
消耗最多能量的地方尚不清楚,雖然這似乎很明顯,但結(jié)果卻頗有爭議。有兩個方面需要考慮——訓(xùn)練與推理,以及邊緣與云。
訓(xùn)練與推理
為什么訓(xùn)練會消耗如此多的能量?“當(dāng)您對同一個數(shù)據(jù)集進(jìn)行多次迭代時,會消耗大量的能量,”Arteris 的 Frank 說。“你正在做梯度下降類型的近似。該模型基本上是一個超維曲面,你所做一些梯度是由通過多維向量空間下降的微商定義的。”
這樣做所消耗的能量正在迅速增加。“如果你看看兩年前訓(xùn)練一個模型所需的能量,一些變壓器模型的能量在 27 千瓦時的范圍內(nèi),”Synopsys 的 Maben 說。“如果你看看今天的變壓器,它超過了 50 萬千瓦時。參數(shù)的數(shù)量從大約 5000 萬增加到 2 億。參數(shù)數(shù)量增加了四倍,但能量增加了超過 18,000 倍。歸根結(jié)底,它歸結(jié)為碳足跡以及這會產(chǎn)生多少磅的 CO2?!?/p>
這與推理相比如何?Cadence Tensilica AI 產(chǎn)品的產(chǎn)品營銷總監(jiān) Suhas Mitra 說:“訓(xùn)練涉及向前和向后傳遞,而推理只是向前傳遞?!?“因此,推理的能力總是較低。此外,在訓(xùn)練期間,批量大小可能很大,而在推理過程中,批量大小可能會更小?!?/p>
當(dāng)你試圖估計這兩個函數(shù)消耗的總功率時,它會引起爭議。“關(guān)于哪個消耗更多能量、訓(xùn)練或推理存在爭議,”馬本說?!坝?xùn)練一個模型會消耗大量的能量,而根據(jù)這些數(shù)據(jù)進(jìn)行訓(xùn)練所需的天數(shù)是巨大的。但它是否比推理需要更多的能量?訓(xùn)練是一次性費用。你花了很多時間在訓(xùn)練上。訓(xùn)練階段的問題是參數(shù)的數(shù)量,有些模型有 1500 億個參數(shù)?!?/p>
此外,訓(xùn)練通常不止一次。“訓(xùn)練不是一勞永逸的,”Mythic 的 Vehling 說。“他們不斷地重新訓(xùn)練、重新優(yōu)化模型,因此訓(xùn)練是恒定的。他們不斷地調(diào)整模型,尋找增強(qiáng)功能,增強(qiáng)數(shù)據(jù)集,因此它或多或少是一項持續(xù)的活動。”
然而,推理可能會被重復(fù)多次?!澳阌?xùn)練一個模型,它可能是為自動駕駛汽車開發(fā)的,現(xiàn)在每輛車都使用這個模型,”Maben 補(bǔ)充道?!艾F(xiàn)在我們正在談?wù)撛诖蠹s 1 億輛汽車中進(jìn)行推理。一項預(yù)測是,超過 70% 到 80% 的能量將用于推理而不是訓(xùn)練?!?/p>
有一些數(shù)據(jù)可以支持這一點。"在Northeastern University和MIT最近的一篇論文認(rèn)為,推理對能源消耗的影響大大超過了訓(xùn)練,"Untether AI的高級產(chǎn)品總監(jiān)Philip Lewer說。"這是因為模型是專門為推理而建立的,因此在推理模式下的運行頻率大大高于訓(xùn)練模式--實質(zhì)上就是訓(xùn)練一次,多處運行。"
云與邊緣
將應(yīng)用程序從云端遷移到邊緣可能是出于很多不同的原因。Expedera 營銷副總裁 Paul Karazuba 說:“市場已經(jīng)看到,有些項目最好推到邊緣而不是云端。”?“我認(rèn)為在邊緣完成什么和不做什么以及如何做出這些決定之間沒有明確的界限。我們看到了對邊緣更多 AI 的渴望,我們看到了對邊緣更多關(guān)鍵任務(wù)應(yīng)用程序的渴望,而不是把人工智能作為盒子外面的一個印章。人工智能實際上是在設(shè)備中做一些有用的事情,不僅僅存在于那里?!?/p>
這并不是要你將云模型移動到邊緣?!凹僭O(shè)你有一個自然語音、語音識別應(yīng)用程序,”Mythic 的 Vehling 說。“你正在云端訓(xùn)練這些模型。大多數(shù)時候,您都在運行這些模型以在云中進(jìn)行推理。如果你查看更多位于邊緣的推理應(yīng)用程序,那些不基于云的應(yīng)用,你可以針對這些本地資源訓(xùn)練模型。所以你要解決的幾乎是兩個不同的問題:一種是基于云的,另一種是基于邊緣的,它們不一定有聯(lián)系?!?/p>
模型的建立必須知道它們最終將在哪里運行?!澳阃ǔl(fā)現(xiàn)數(shù)十億參數(shù)模型在云中運行,但這只是一種模型,”Vehling 補(bǔ)充道?!霸诹硪粋€極端,你有少量的喚醒詞模型,它們占用的資源非常少——稱它們?yōu)樾?ml 甚至更低。然后在中間是模型類別,例如可視化分析模型,你可能會在基于相機(jī)的應(yīng)用程序中看到這些模型。它們比云中的模型小得多,但也比這種非常簡單的喚醒詞大得多。”
而且,處于邊緣的不僅僅是推理。我們可能會看到越來越多的訓(xùn)練。“聯(lián)合學(xué)習(xí)就是一個例子,”Expedera 的首席科學(xué)家 Sharad Chole 說。“已經(jīng)使用的一個領(lǐng)域是自動完成。每個人的自動完成功能可能會有所不同,如何學(xué)習(xí)?如何定制?必須在保護(hù)用戶隱私的情況下完成。這是個挑戰(zhàn)?!?/p>
邁向更高的效率
將應(yīng)用程序從訓(xùn)練系統(tǒng)轉(zhuǎn)移到邊緣涉及到重要的軟件堆棧。“一旦你通過了初始訓(xùn)練階段,后續(xù)優(yōu)化會提供明顯更輕的模型,而性能幾乎沒有下降”西門子的 Hupcey 說?!澳P秃喕夹g(shù)用于降低推理過程中的功耗。模型簡化技術(shù)被用來降低推理過程中的功耗。量化、權(quán)重修剪和近似被廣泛用于模型訓(xùn)練后或模型部署前的過程中。其中最明顯的兩個案例是TinyML和GPT-3的輕型版本"。
Klein補(bǔ)充道。"刪除和修剪是一個好的開始。量化為更小的數(shù)字表示也有幫助??梢詫⒕W(wǎng)絡(luò)的規(guī)模減少99%或更多,并且在許多情況下精度下降不到1%。有些人還研究了模型中的通道與層之間的交易,以產(chǎn)生更小的網(wǎng)絡(luò)而不影響準(zhǔn)確性。
Klein 補(bǔ)充道:"刪除和修剪是一個好的開始。量化為更小的數(shù)字也有幫助。積極地進(jìn)行,這些可以將網(wǎng)絡(luò)的大小減少 99% 或更多,并且在許多情況下導(dǎo)致精度下降不到 1%。有些人還研究了模型中的通道與層之間的交易,以在不影響準(zhǔn)確性的情況下產(chǎn)生更小的網(wǎng)絡(luò)?!?/p>
這些技術(shù)既減小了模型的大小,又直接降低了能源需求,更多的改進(jìn)是可能的?!艾F(xiàn)在我們看到了對混合精度的支持,每一層都可以量化到不同的域,”Expedera 的 Chole 說。“這種做法可以被進(jìn)一步推動。也許將來權(quán)重的每個維度都可以量化為不同的精度。這種推動是有意義的,因為這樣一來,在訓(xùn)練期間,數(shù)據(jù)科學(xué)家會意識到他們?nèi)绾文軌蚪档凸β?,以及在降低功率的同時,他們正在做什么樣的準(zhǔn)確性權(quán)衡。”
結(jié)論
模型變得越來越大以試圖獲得更高的準(zhǔn)確性,但這種趨勢必須停止,因為它消耗的電量正在不成比例地增加。雖然云計算由于其商業(yè)模式,今天可以負(fù)擔(dān)得起,但邊緣卻不能。隨著越來越多的公司投資于邊緣應(yīng)用,我們可以期待看到對能源優(yōu)化的更多關(guān)注。
編輯:黃飛
?
電子發(fā)燒友App
















評論