91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

被帶寬限制的AI性能,怎么樣才能讓人工智能提供更好的性能?

工程師鄧生 ? 來(lái)源:雷鋒網(wǎng) ? 作者: 吳優(yōu) ? 2020-12-16 15:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在目前廣泛應(yīng)用于AI的內(nèi)存方案中,包括片上存儲(chǔ)、HBM和GDDR。

作者 | 吳優(yōu)

人工智能經(jīng)過(guò)幾十年的發(fā)展,在數(shù)據(jù)爆炸時(shí)代正處于良性循環(huán),大量的數(shù)據(jù)用于制造和訓(xùn)練神經(jīng)網(wǎng)絡(luò),而后利用神經(jīng)網(wǎng)絡(luò)篩選并理解這些數(shù)據(jù)。

不過(guò),我們?nèi)匀粚?duì)于更好的人工智能有巨大需求,據(jù)Open AI的一份報(bào)告顯示,從2012到2019年,人工智能訓(xùn)練集增長(zhǎng)將近30萬(wàn)倍,每3.43個(gè)月翻一番,比摩爾定律快25000倍,在摩爾定律將近失效的今天,那么怎么樣才能讓人工智能提供更好的性能?

內(nèi)存帶寬限制人工智能模型本身

早在兩年前,業(yè)內(nèi)就有人提出,在計(jì)算能力和數(shù)據(jù)量足夠的年代里,內(nèi)存帶寬才是人工智能發(fā)展的瓶頸。

德克薩斯高級(jí)計(jì)算中心(TACC)研究科學(xué)家曾在其2016年的報(bào)告《HPC系統(tǒng)中的內(nèi)存帶寬和系統(tǒng)平衡》中比較過(guò)去25年某些HPC服務(wù)器的浮點(diǎn)計(jì)算情況,結(jié)果顯示內(nèi)存、網(wǎng)絡(luò)延遲和帶寬大幅度落后于處理器性能,其中內(nèi)存帶寬大約每十年落后浮點(diǎn)計(jì)算4.5倍。

“一個(gè)非常有趣的現(xiàn)象是,內(nèi)存對(duì)人工智能的限制一部分體現(xiàn)在人工智能模型本身,以及用來(lái)訓(xùn)練這些模型的數(shù)據(jù)量規(guī)模急劇增長(zhǎng)?!?a href="http://m.makelele.cn/tags/ram/" target="_blank">Rambus 大中華區(qū)總經(jīng)理蘇雷在Rambus 2020中國(guó)設(shè)計(jì)峰會(huì)上說(shuō)到。

根據(jù)蘇雷的介紹,這種限制在人工智能傳統(tǒng)訓(xùn)練模型和并行訓(xùn)練模型上均有體現(xiàn)。

傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練通常只使用一個(gè)AI/ML引擎,即將神經(jīng)網(wǎng)絡(luò)模型和訓(xùn)練數(shù)據(jù)全都嵌入一顆芯片中,訓(xùn)練的數(shù)據(jù)在芯片中迭代循環(huán),通過(guò)不斷更新模型實(shí)現(xiàn)對(duì)數(shù)據(jù)的分類、識(shí)別和處理,這一場(chǎng)景下其性能直接取決于計(jì)算引擎和緩存速度、內(nèi)存帶寬。

為提高數(shù)據(jù)訓(xùn)練時(shí)間,具體多個(gè)AI/ML引擎的神經(jīng)網(wǎng)絡(luò)得以出現(xiàn),這種方法是神經(jīng)網(wǎng)絡(luò)模型的完整副本同時(shí)嵌入多個(gè)芯片中,神經(jīng)網(wǎng)絡(luò)模型所需的訓(xùn)練工作量被均分到每一顆芯片中,多個(gè)芯片引擎并行處理訓(xùn)練集,進(jìn)而提高訓(xùn)練時(shí)間。

并行方案的每一個(gè)訓(xùn)練步驟可分為兩個(gè)階段,每個(gè)階段受到的帶寬限制不盡相同。

在第一階段,每個(gè)訓(xùn)練的并行引擎將通過(guò)它們的訓(xùn)練結(jié)果更新其模型副本,因此并行訓(xùn)練的每個(gè)芯片在運(yùn)行完每一次訓(xùn)練迭代后,都會(huì)有不同的訓(xùn)練更新,因此這一階段數(shù)據(jù)傳輸?shù)叫酒乃俣戎苯尤Q于內(nèi)存帶寬的大小。

在第二階段,即規(guī)約階段(Reduction),需要每個(gè)引擎與所有其它引擎交互更新信息,讓芯片彼此了解其它芯片的更新并接受來(lái)著其他芯片的更新,得以更新自己的模型,恢復(fù)模型間的同步,再次擁有相同的模型副本。顯然,這一階段的性能主要取決于芯片間鏈路帶寬的限制。

HBM 2和GDDR 6,更多的內(nèi)存選擇

“為縮小內(nèi)存帶寬和高性能浮點(diǎn)計(jì)算之間的差距等問(wèn)題,我們有新的系統(tǒng)架構(gòu)和面向特定領(lǐng)域的硅,或者將更多的數(shù)據(jù)直接放在芯片上,以獲得更高的帶寬,更好的功率和更低的延遲,但是數(shù)據(jù)總是越來(lái)越大,需要更多的內(nèi)存,所以依然需要在片外存儲(chǔ)器和鏈路性能上取得突破?!盧aymond Su表示。

在目前廣泛應(yīng)用于AI的內(nèi)存方案中,片上存儲(chǔ)(On-Chip Memory)就是Raymond Su所言的擁有最高帶寬和功率效率但容量有限的方案,其他兩種方案分別是HBM和GDDR,即DRAM解決方案。

HBM是一種基于3D堆棧工藝的高性能DRAM。第一代HBM誕生于2013年,最新一代HBM標(biāo)準(zhǔn)已經(jīng)演進(jìn)到HBM2E,能夠支持12個(gè)DRAM的堆棧,內(nèi)存容量高達(dá)每堆棧24GB,當(dāng)傳輸速率達(dá)到每管腳3.6Gbps時(shí),HBM2E可以實(shí)現(xiàn)每堆棧461GB/s的內(nèi)存帶寬。

由于HBM2E堆棧需要通過(guò)高達(dá)1700多條數(shù)據(jù)“線”的接口連接到相關(guān)處理器,遠(yuǎn)遠(yuǎn)超過(guò)標(biāo)準(zhǔn)PCB能夠支持的范圍,因此使用硅中介層作為連接內(nèi)存堆棧和處理器的中介,在硅中介層中完成精細(xì)的數(shù)據(jù)走線,獲得HBM接口所需數(shù)量的數(shù)據(jù)線數(shù)。

HBM2E通過(guò)堆疊技術(shù)實(shí)現(xiàn)高帶寬和高容量,但由于硅中介層的使用,成本偏高。

GDDR是雙倍數(shù)據(jù)傳輸率存儲(chǔ)器,采用傳統(tǒng)的方法將標(biāo)準(zhǔn)PCB和測(cè)試的DRAMs與SoC連接在一起,具有較高的帶寬和較好的能耗效率,其缺點(diǎn)在于更難保證信號(hào)完整性和電源完整性。

比較256GB/s下HBM2和GDDR6,HBM2E的接口寬而慢,GDDR6的接口窄而快。HBM2占有面積優(yōu)勢(shì)和能耗優(yōu)勢(shì),但GDDR6具有成本和方案工程上的實(shí)現(xiàn)優(yōu)勢(shì)。

HBM2與GDDR6內(nèi)存解決方案的高帶寬已經(jīng)顯而易見(jiàn),不過(guò)想要真正落實(shí)到實(shí)現(xiàn)高性能人工智能的應(yīng)用上,還需要IP供應(yīng)商的支持,在HBM2和GDDR6內(nèi)存解決方案的IP供應(yīng)中,Rambus就扮演重要角色。

根據(jù)Rambus資深應(yīng)用工程師曹汪洋在Rambus 2020中國(guó)設(shè)計(jì)峰會(huì)上的介紹,Rambus的HMB2E接口解決方案(PHY和控制器)專為AI/ML、HPC的高性能和低延遲而設(shè)計(jì)。Rambus HBM Gen2 PHY 完全符合JEDEC HBM2E標(biāo)準(zhǔn),支持每個(gè)數(shù)據(jù)引腳高達(dá)3.6Gbps 的數(shù)據(jù)速率,總帶寬因此達(dá)到461 GB/s。該接口具有8個(gè)獨(dú)立信道,每個(gè)信道包含128位,總數(shù)據(jù)寬度為 1024 位,支持2、4、8 或 12個(gè)DRAM的堆棧高度。

Rambus GDDR6 PHY每個(gè)引腳的速度高達(dá)16 Gbps,可用于TSMC 7nm工藝,GDDR6接口支持2個(gè)信道,每個(gè)信道有16位,總數(shù)據(jù)寬度為32位。另外,Rambus GDDR6 PHY 每個(gè)引腳的速度高達(dá)16 Gbps,最高可提供 64 GB/s 的帶寬。

在Rambus 2020中國(guó)設(shè)計(jì)峰會(huì)的交流環(huán)節(jié),蘇雷向雷鋒網(wǎng)表示: “Rambus 是全球HBM IP技術(shù)的引領(lǐng)者,且在市場(chǎng)份額上排名第一,全球范圍內(nèi)擁有50多個(gè)成功案例,Rambus最新的Rambus HBM2E的方案可以實(shí)現(xiàn)全球最高的4Gpbs速率,GDDR6方案可以實(shí)現(xiàn)18Gbps速率,位于業(yè)界頂尖水平,這能夠幫助客戶的方案設(shè)計(jì)提供足夠裕量空間,保證整個(gè)系統(tǒng)的穩(wěn)定性,目前燧原已將選擇了Rambus作為其下一代AI訓(xùn)練芯片的合作伙伴。”

高帶寬之后,信號(hào)完整性也是挑戰(zhàn)

在上述文章中提到,HBM和GDDR是可以為AI/ML提供高帶寬,其中速率更高的GDDR6面臨著信號(hào)完整性和電源完整性的挑戰(zhàn)。

據(jù)雷鋒網(wǎng)了解,信道中不同類型的損耗是影響信號(hào)完整性的主要因素,具體又可以分為插入損耗、反射和串?dāng)_,插入損耗產(chǎn)于介電損耗或金屬電阻表面粗糙程度,主要通過(guò)較好的PCB和封裝設(shè)計(jì)來(lái)控制。信號(hào)反射源于阻抗,最終會(huì)導(dǎo)致眼圖閉合和信號(hào)丟失。串?dāng)_由于兩個(gè)信號(hào)之間的電容和電感耦合引起的,由于從信號(hào)中消除串?dāng)_的電路很復(fù)雜,因此串?dāng)_是GDDR6 DRAM信號(hào)完整性最具挑戰(zhàn)性的問(wèn)題。

針對(duì)信號(hào)完整性問(wèn)題,蘇雷表示:“ 要確保信號(hào)的完整性,就需要從發(fā)送端到接收端進(jìn)行的完整系統(tǒng)建模,需要采用協(xié)同設(shè)計(jì)的方案。Rambus 的GDDR6 PHY解決方案可以穩(wěn)定在18Gbps并確保傳輸眼圖清晰,走在業(yè)界最前列。在高速的傳輸下,還需要對(duì)電路板上的封裝設(shè)計(jì)進(jìn)行建模,使用比如DFE和反轉(zhuǎn)等技術(shù),可以提高性能讓眼圖更好的打開(kāi) 。”

當(dāng)然除了信號(hào)完整性和電源完成性,DRAM數(shù)據(jù)速率的增長(zhǎng)還導(dǎo)致更多其他的問(wèn)題,“我們需要做的還是兼顧能耗的制約,不斷找尋和提升內(nèi)存帶寬的方法,為AI/ML更高的性能。”蘇雷說(shuō)道。

責(zé)任編輯:PSY

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 帶寬
    +關(guān)注

    關(guān)注

    3

    文章

    1040

    瀏覽量

    43375
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39794

    瀏覽量

    301456
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50099

    瀏覽量

    265436
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    雙脈沖測(cè)試:差分探頭帶寬限制按鍵,該開(kāi)還是該關(guān)?

    才能讓測(cè)試數(shù)據(jù)更精準(zhǔn),避免誤判。 先給大家一個(gè)直觀結(jié)論:普通場(chǎng)景、干擾大,或者只需要基礎(chǔ)參數(shù),就打開(kāi)帶寬限制;測(cè)試高頻高速器件,或者要精準(zhǔn)分析波形細(xì)節(jié),就果斷關(guān)閉。 下面結(jié)合實(shí)際測(cè)試場(chǎng)景,和大家說(shuō)清楚背后的
    的頭像 發(fā)表于 03-03 08:58 ?41次閱讀
    雙脈沖測(cè)試:差分探頭<b class='flag-5'>帶寬限制</b>按鍵,該開(kāi)還是該關(guān)?

    淺談人工智能(2)

    接前文《淺談人工智能(1)》。 (5)什么是弱人工智能、強(qiáng)人工智能以及超人工智能? 弱人工智能(Weak
    的頭像 發(fā)表于 02-22 08:24 ?127次閱讀
    淺談<b class='flag-5'>人工智能</b>(2)

    傲琪人工合成石墨片: 破解智能手機(jī)散熱困境的創(chuàng)新解決方案

    近年來(lái),智能手機(jī)行業(yè)面臨著一個(gè)日益嚴(yán)峻的挑戰(zhàn):設(shè)備性能不斷提升,但散熱技術(shù)卻跟不上處理器功率增長(zhǎng)的步伐。消費(fèi)者對(duì)輕薄機(jī)身的追求,更加限制了傳統(tǒng)散熱方案的應(yīng)用空間。 某主流手機(jī)廠商的最新旗艦機(jī)型研發(fā)
    發(fā)表于 09-13 14:06

    利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能

    應(yīng)用。 為什么選擇 Neuton 作為開(kāi)發(fā)人員,在產(chǎn)品中使用邊緣人工智能的兩個(gè)最大障礙是: ML 模型對(duì)于您所選微控制器的內(nèi)存來(lái)說(shuō)太大。 創(chuàng)建自定義 ML 模型本質(zhì)上是一個(gè)手動(dòng)過(guò)程,需要高度的數(shù)據(jù)科學(xué)知識(shí)才能
    發(fā)表于 08-31 20:54

    挖到寶了!人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器

    和生態(tài)體系帶到使用者身邊 ,讓我們?cè)诩夹g(shù)學(xué)習(xí)和使用上不再受制于人。 三、多模態(tài)實(shí)驗(yàn),解鎖AI全流程 它嵌入了2D視覺(jué)、深度視覺(jué)、機(jī)械手臂、語(yǔ)音識(shí)別、嵌入式傳感器等多種類AI模塊,涵蓋人工智能領(lǐng)域主要
    發(fā)表于 08-07 14:30

    挖到寶了!比鄰星人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器!

    和生態(tài)體系帶到使用者身邊 ,讓我們?cè)诩夹g(shù)學(xué)習(xí)和使用上不再受制于人。 三、多模態(tài)實(shí)驗(yàn),解鎖AI全流程 它嵌入了2D視覺(jué)、深度視覺(jué)、機(jī)械手臂、語(yǔ)音識(shí)別、嵌入式傳感器等多種類AI模塊,涵蓋人工智能領(lǐng)域主要
    發(fā)表于 08-07 14:23

    超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級(jí)芯片(SoC)上解鎖邊緣人工智能應(yīng)用.

    Neuton 是一家邊緣AI 公司,致力于讓機(jī)器 學(xué)習(xí)模型更易于使用。它創(chuàng)建的模型比競(jìng)爭(zhēng)對(duì)手的框架小10 倍,速度也快10 倍,甚至可以在最先進(jìn)的邊緣設(shè)備上進(jìn)行人工智能處理。在這篇博文中,我們將介紹
    發(fā)表于 07-31 11:38

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    DeepSeek-R1:強(qiáng)大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司開(kāi)發(fā)的新一代AI大模型。其核心優(yōu)勢(shì)在于強(qiáng)大的推理引擎能力,融合了自然語(yǔ)言處理(NLP)、深度
    發(fā)表于 07-16 15:29

    迅為RK3588開(kāi)發(fā)板Linux安卓麒麟瑞芯微國(guó)產(chǎn)工業(yè)AI人工智能

    迅為RK3588開(kāi)發(fā)板Linux安卓麒麟瑞芯微國(guó)產(chǎn)工業(yè)AI人工智能
    發(fā)表于 07-14 11:23

    AI芯片:加速人工智能計(jì)算的專用硬件引擎

    人工智能AI)的快速發(fā)展離不開(kāi)高性能計(jì)算硬件的支持,而傳統(tǒng)CPU由于架構(gòu)限制,難以高效處理AI任務(wù)中的大規(guī)模并行計(jì)算需求。因此,專為
    的頭像 發(fā)表于 07-09 15:59 ?1587次閱讀

    最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門學(xué)習(xí)課程參考2025版(大模型篇)

    人工智能大模型重塑教育與社會(huì)發(fā)展的當(dāng)下,無(wú)論是探索未來(lái)職業(yè)方向,還是更新技術(shù)儲(chǔ)備,掌握大模型知識(shí)都已成為新時(shí)代的必修課。從職場(chǎng)上輔助工作的智能助手,到課堂用于學(xué)術(shù)研究的智能工具,大模型正在工作生活
    發(fā)表于 07-04 11:10

    開(kāi)售RK3576 高性能人工智能主板

    ,HDMI-4K 輸出,支 持千兆以太網(wǎng),WiFi,USB 擴(kuò)展/重力感應(yīng)/RS232/RS485/IO 擴(kuò)展/I2C 擴(kuò)展/MIPI 攝像頭/紅外遙控 器等功能,豐富的接口,一個(gè)全新八核擁有超強(qiáng)性能人工智能
    發(fā)表于 04-23 10:55

    適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)

    隨著人工智能AI)技術(shù)的迅猛發(fā)展,數(shù)據(jù)中心面臨著前所未有的計(jì)算和網(wǎng)絡(luò)壓力。從大語(yǔ)言模型(LLM)訓(xùn)練到生成式AI應(yīng)用,海量數(shù)據(jù)處理需求推動(dòng)了網(wǎng)絡(luò)帶寬的快速增長(zhǎng)。在此背景下,800G網(wǎng)
    發(fā)表于 03-25 17:35

    DeepSeek推動(dòng)AI算力需求:800G光模塊的關(guān)鍵作用

    隨著人工智能技術(shù)的飛速發(fā)展,AI算力需求正以前所未有的速度增長(zhǎng)。DeepSeek等大模型的訓(xùn)練與推理任務(wù)對(duì)算力的需求持續(xù)攀升,直接推動(dòng)了服務(wù)器、光通信設(shè)備以及數(shù)據(jù)中心基礎(chǔ)設(shè)施的升級(jí)。特別是在大規(guī)模算
    發(fā)表于 03-25 12:00

    AI人工智能隱私保護(hù)怎么

    在當(dāng)今科技飛速發(fā)展的時(shí)代,AI人工智能已經(jīng)深入到我們生活的方方面面,從醫(yī)療診斷到交通調(diào)度,從教育輔助到娛樂(lè)互動(dòng),其影響力無(wú)處不在。然而,隨著AI人工智能的廣泛應(yīng)用,其安全性問(wèn)題也備受關(guān)
    的頭像 發(fā)表于 03-11 09:46 ?1209次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>人工智能</b>隱私保護(hù)怎么<b class='flag-5'>樣</b>