91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英特爾最新GPU Gaudi2架構(gòu)相關(guān)信息介紹

要長高 ? 來源:半導(dǎo)體產(chǎn)業(yè)縱橫 ? 作者:半導(dǎo)體產(chǎn)業(yè)縱橫 ? 2022-05-12 15:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

英偉達并不是唯一一家創(chuàng)建專業(yè)計算單元的公司,這些計算單元擅長矩陣數(shù)學(xué)和張量處理,這些計算單元支持AI訓(xùn)練,并且可以重新用于運行AI推理。英特爾已經(jīng)收購了兩家這樣的公司—Nervana Systems,并緊隨其后的是Habana Labs,后者已被英特爾產(chǎn)品化,并緊隨英偉達的GPU加速器之后。

英特爾是一家優(yōu)秀的公司,該公司認(rèn)為將在未來五年內(nèi)獲得500億美元的人工智能計算機會(用于訓(xùn)練和推理),從現(xiàn)在到2027年,英特爾將以25%的復(fù)合年增長率增長,達到這一水平。鑒于“Ponte Vecchio”Xe HPC GPU加速器即將推出的相當(dāng)大的矩陣和矢量數(shù)學(xué),以及即將到來的“Sapphire Rapids”Xeon SP CPU中AMX矩陣數(shù)學(xué)單元中很可能有足夠的推理容量,因此有理由想知道英特爾預(yù)計會銷售多少Gaudi訓(xùn)練和Goya推理芯片。

我們了解到,當(dāng)英特爾在2016年8月以3.5億美元與Nervana Systems達成交易并在2019年12月以20億美元收購Habana Labs時,它追求的是知識產(chǎn)權(quán)和人,當(dāng)然,因為這就是這場IT戰(zhàn)爭的玩法,但我們一直想知道這些設(shè)備,以及來自競爭對手GraphCore的設(shè)計, Cerebras,SambaNova Systems和Groq將部署在類似于主流的東西中。上述四家公司迄今為止共籌集了28.7億美元。

所有這些產(chǎn)品都剛剛開始滾動,這就是為什么英特爾將其賭注對沖到Nervana和Habana,就像它對數(shù)據(jù)中心FPGA感到恐懼一樣(主要歸功于Microsoft Azure),并在2015年6月斥資167億美元收購了Altera。在2015年至2020年器件,在數(shù)據(jù)中心計算方面英特爾的Xeon CPU占據(jù)主導(dǎo)地位,并且通過收購方式,減少了一些競爭對手。

在本周舉行的Intel Vision 2022大會上,Gaudi2 AI訓(xùn)練芯片是芯片制造商推出的大型新計算引擎,順便說一句,它不是英特爾實際制造的芯片,而是像其前身Gaudi1一樣,由競爭對手臺積電代工蝕刻而成。英特爾尚未透露對Gaudi2架構(gòu)的深入研究,但這是我們所知道的。

通過Gaudi2,英特爾正在轉(zhuǎn)向臺積電的7納米工藝,隨著這種收縮,它能夠?qū)⑿酒系腡PC數(shù)量從10個增加到24個,并增加了對新的8位FP8數(shù)據(jù)格式的支持,英偉達還將其添加到其“Hopper”GH100 GPU計算引擎中,該引擎于3月份推出,并在第三季度發(fā)貨。使用FP8格式,現(xiàn)在可以以相同的格式獲得低分辨率推理數(shù)據(jù)和高分辨率訓(xùn)練數(shù)據(jù),并且在從訓(xùn)練移動到推理時不必在浮點和整數(shù)之間轉(zhuǎn)換模型。這對AI來說是一個真正的福音,盡管較低精度的整數(shù)格式可能會在未來許多年內(nèi)保留在矩陣和矢量計算引擎中,以支持遺留代碼和其他類型的應(yīng)用程序。Gaudi2芯片具有48 MB的SRAM,如果它與TPC數(shù)量線性擴展,將能達到2.4倍而不是2倍的SRAM,或57.6 MB。

Gaudi2芯片上有HBM2e內(nèi)存組,可提供2.45 TB /秒的帶寬,比Gaudi1芯片增加了2.45倍。HBM2e內(nèi)存庫的數(shù)量沒有透露,但六個16 GB HBM2e的存儲體為Gaudi2提供了訣竅,而Gaudi 1的四個存儲體為8 GB HBM2。僅兩個 HBM2e 內(nèi)存控制器的增加就可將帶寬提高 1.33 倍,而帶寬的剩余增加來自提高內(nèi)存速度。

Gaudi1芯片有十個100Gb/秒以太網(wǎng)端口,支持RoCE直接內(nèi)存訪問協(xié)議,事實證明,每個TPC一個,但我們當(dāng)時并不知道,因為只顯示了八個。但是Gaudi2有24個以太網(wǎng)端口以100 Gb / sec的速度運行,每個TPC一個。它的功率為650瓦。我們假設(shè)此設(shè)備插入PCI-Express 5.0插槽,但英特爾尚未確認(rèn)這一點。

假設(shè)沒有重大的架構(gòu)變化,并且該過程產(chǎn)生的時鐘速度從16納米縮小到7納米,我們預(yù)計Gaudi2芯片的性能將是Gaudi2的2.5倍。(還假設(shè)在任何給定應(yīng)用程序中處理的精度水平相同。)但英特爾實際上并沒有說是否有任何架構(gòu)變化(除了它增加了一些媒體處理功能)以及時鐘速度是如何變化的,所以我們必須推斷出來。

我們通過查看ResNet-50機器視覺訓(xùn)練操作的圖表來做到這一點,該圖表使Gaudi1和Gaudi2與過去兩代英偉達GPU加速器競爭:

poYBAGJ8tZyAXOkSAAHREWHl00k459.png

與Nervana Systems一樣,Habana Labs非常認(rèn)真地致力于創(chuàng)建一套芯片,為AI工作負(fù)載提供最佳收益和最佳性能。哈瓦那戈雅HL-1000推理芯片于2019年初宣布,Gaudi1 AI訓(xùn)練芯片(也稱為HL-2000)于當(dāng)年夏天晚些時候首次亮相。Gaudi1架構(gòu)有一個通用矩陣乘法(GEMM)前端,后端由十個張量處理器內(nèi)核或TPC組成,芯片只向用戶公開其中的八個,以幫助提高封裝的良率。

Gaudi1使用了第二代TPC,而Goya HL-1000 AI推理芯片則使用了不那么強大和不那么復(fù)雜的原始TPC設(shè)計。Gadui1芯片中的TPC可以使用C編程語言直接尋址,并具有張量尋址以及BF16和FP32浮點以及INT8,INT16和INT32整數(shù)格式的支持。TPC指令集具有加速Sigmoid,GeLU,Tanh和其他特殊功能的電路。Gaudi 1采用臺積電的16納米工藝,具有24 MB片上SRAM,四組HBM2存儲器,容量為32 GB,帶寬為1 TB/秒。Gaudi1插入PCI-Express 4.0 x16插槽,消耗了350瓦的果汁,并將幾乎所有的果汁轉(zhuǎn)換為熱量,就像芯片一樣。

英特爾尚未透露對Gaudi2架構(gòu)的深入研究。

根據(jù)ResNet-50的比較,Gaudi2的性能是Gaudi1的3.2倍,但很難估計有多少性能是由于整個芯片的容量增加。這個特定的測試正在運行TensorFlow框架來執(zhí)行圖像識別訓(xùn)練,顯示的數(shù)據(jù)是每秒處理的圖像數(shù)量。

有一件事沒有顯示,而且很重要,那就是Gaudi2加速器將如何與Hopper GPU堆疊,但英偉達尚未透露任何特定測試的性能結(jié)果。但是,由于 H100 中的 HBM3 內(nèi)存運行速度比 A100 加速器中使用的 HBM2e 內(nèi)存快 1.5 倍,而FP16、TF32 和 FP64 在新的 Tensor Core 上提供的性能是 3 倍,因此可以合理地預(yù)期 H100 的性能將是 ResNet-50 視覺訓(xùn)練工作負(fù)載的 1.5 倍到 3 倍。因此,H100將在ResNet-50測試中每秒提供4,395至8,790張圖像的性能。我們的猜測是,它將比前者更接近后者,并且比英特爾通過Gaudi2可以提供的更大幅度更大。

與使用BERT模型的自然語言處理相比,圖像識別和視頻處理相對容易。以下是Gaudi2與英偉達V100和A100的對比,請注意Gaudi1丟失了:

poYBAGJ8taiAPNPHAAHxA4oiaTc243.png

BERT 模型也在TensorFlow 框架上運行,此數(shù)據(jù)顯示了兩個不同訓(xùn)練階段中每秒吞吐量的序列數(shù)。在一次預(yù)審中,哈瓦那實驗室部門首席商務(wù)官Eitan Medina表示,Gaudi2的性能不到A100的2倍。但是,H100擁有自己的FP8格式及其Transformer Engine,可以動態(tài)地改變AI訓(xùn)練工作流程不同部分的數(shù)據(jù)精度和處理,可以做得更好。我們不知道具體到什么,但我們強烈懷疑英偉達至少可以縮小與Gaudi2的差距,并且很可能超越它。

有趣的是,英特爾在亞馬遜網(wǎng)絡(luò)服務(wù)上啟動了DL1Gaudi1實例,然后分別基于A100和V100 GPU的p4d和p3實例,并進行了一些價格/性能分析,以計算ResNet-50基準(zhǔn)測試中認(rèn)可的每張圖像的成本。請看一下:

poYBAGJ8tcCAFKhGAAK_5Whik6E208.png

這張圖表的意思是,Gaudi1的性能略好于V100,使用上圖中ResNet-50中英特爾的性能數(shù)據(jù)為27.3% ,并且價格提高了約60%,這意味著DL1實例的成本比使用V100的p3實例低得多。隨著遷移到基于A100的p4d實例,該實例具有40GB的HBM2e內(nèi)存,英偉達設(shè)備在ResNet-50上的吞吐量比Gaudi1高出58.6%,但Gaudi1處理的每個圖像的成本降低了46%。這意味著A100實例確實要貴得多。如果我們對Hopper GPU加速器定價的猜測是正確的,并且英偉達收取大約2倍的費用,大約3倍的性能,英特爾將不得不保持出售給AWS的Gaudi2芯片的價格,因為AWS仍然可以顯示出比運行AI訓(xùn)練的H100實例更好的性價比。

無論如何,英特爾在其實驗室中運行了超過1000個Gaudi2,因此它可以調(diào)整SynapseAI軟件堆棧,其中包括在Habana的圖形編譯器,內(nèi)核庫和通信庫上運行的PyTorch和TensorFlow框架。Gaudi2芯片現(xiàn)在正在發(fā)貨。

除了Gaudi2芯片外,英特爾還在預(yù)覽其Greco后續(xù)Goya推理引擎,該引擎也在臺積電躍升至7納米至16納米工藝。

Greco 推理卡具有 16GB 的 LPDDR5 主內(nèi)存,可提供 204 GB/秒的內(nèi)存帶寬,而使用先前的 Goya 推理引擎的 DDR4 內(nèi)存塊為 40 GB/秒。哈瓦那架構(gòu)的Greco變體支持INT4,BF16和FP16格式,功耗為75瓦,大大低于2019年初宣布的HL-1000設(shè)備的200瓦。如上圖所示,它被壓縮成一個更緊湊的半高,半長的PCI-Express卡。目前還沒有關(guān)于這個的性能或定價的消息。

綜合:半導(dǎo)體產(chǎn)業(yè)縱橫編輯部

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10301

    瀏覽量

    180470
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5194

    瀏覽量

    135473
  • 圖像識別
    +關(guān)注

    關(guān)注

    9

    文章

    533

    瀏覽量

    40060
  • Gaudi2
    +關(guān)注

    關(guān)注

    0

    文章

    13

    瀏覽量

    283
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    英特爾前CEO基辛格:GPU將被取代!

    電子發(fā)燒友網(wǎng)報道(文/黃山明)“2030年前,GPU將被取代!”2025年11月下旬,英特爾前CEO帕特·基辛格(Pat Gelsinger)在接受《金融時報》采訪時這樣說。而基辛格之所以保持如此
    的頭像 發(fā)表于 12-04 09:48 ?7341次閱讀

    超越臺積電?英特爾首個18A工藝芯片邁向大規(guī)模量產(chǎn)

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)10月9日,英特爾公布了代號Panther Lake的新一代客戶端處理器英特爾?酷睿?Ultra(第三代)的架構(gòu)細(xì)節(jié),這款產(chǎn)品預(yù)計于今年晚些時候出貨。Panther
    的頭像 發(fā)表于 10-11 08:14 ?9108次閱讀
    超越臺積電?<b class='flag-5'>英特爾</b>首個18A工藝芯片邁向大規(guī)模量產(chǎn)

    AI峰會冰火兩重天:英特爾亮劍GPU挑戰(zhàn)英偉達,黃仁勛怒懟AI代替軟件

    美東時間2月3日,在思科AI大會上,英偉達CEO黃仁勛和英特爾CEO陳立武接連放出了重磅消息。英特爾CEO陳立武宣布,已指派新任架構(gòu)師,準(zhǔn)備打造首款
    的頭像 發(fā)表于 02-05 10:05 ?1.2w次閱讀
    AI峰會冰火兩重天:<b class='flag-5'>英特爾</b>亮劍<b class='flag-5'>GPU</b>挑戰(zhàn)英偉達,黃仁勛怒懟AI代替軟件

    18A工藝大單!英特爾將代工微軟AI芯片Maia 2

    。 ? 英特爾18A工藝堪稱芯片制造領(lǐng)域的一項重大突破,處于業(yè)界2納米級節(jié)點水平。它采用了兩項極具創(chuàng)新性的基礎(chǔ)技術(shù)——RibbonFET全環(huán)繞柵極晶體管架構(gòu)和PowerVia背面供電技術(shù)
    的頭像 發(fā)表于 10-21 08:52 ?5582次閱讀

    今日看點丨英偉達入股英特爾;寒武紀(jì):網(wǎng)傳訂單信息不實

    NVLink 技術(shù)實現(xiàn)架構(gòu)無縫互連 --融合 NVIDIA 在 AI 與加速計算領(lǐng)域的優(yōu)勢,以及英特爾先進的 CPU 技術(shù)與 x86 生態(tài),為客戶提供前沿解決方案。 ? 在數(shù)據(jù)中心領(lǐng)域,英特爾將為 NVIDIA定制x86 處理
    發(fā)表于 09-19 10:21 ?1056次閱讀

    英特爾Gaudi 2E AI加速器為DeepSeek-V3.1提供加速支持

    英特爾? Gaudi 2EAI加速器現(xiàn)已為DeepSeek-V3.1提供深度優(yōu)化支持。憑借出色的性能和成本效益,英特爾Gaudi
    的頭像 發(fā)表于 08-26 19:18 ?3028次閱讀
    <b class='flag-5'>英特爾</b><b class='flag-5'>Gaudi</b> <b class='flag-5'>2</b>E AI加速器為DeepSeek-V3.1提供加速支持

    使用英特爾? NPU 插件C++運行應(yīng)用程序時出現(xiàn)錯誤:“std::Runtime_error at memory location”怎么解決?

    使用OpenVINO?工具套件版本 2024.4.0 構(gòu)建C++應(yīng)用程序 使用英特爾? NPU 插件運行了 C++ 應(yīng)用程序 遇到的錯誤: Microsoft C++ exception: std::runtime_error at memory location
    發(fā)表于 06-25 08:01

    英特爾銳炫Pro B系列,邊緣AI的“智能引擎”

    2025年6月19日,上?!?在MWC 25上海期間,英特爾展示了一幅由英特爾銳炫? Pro B系列GPU所驅(qū)動的“實時響應(yīng)、安全高效、成本可控”的邊緣AI圖景。 英特爾客戶端計算事
    的頭像 發(fā)表于 06-20 17:32 ?896次閱讀
    <b class='flag-5'>英特爾</b>銳炫Pro B系列,邊緣AI的“智能引擎”

    分析師:英特爾轉(zhuǎn)型之路,機遇與挑戰(zhàn)并存

    ,這正是英特爾當(dāng)前發(fā)展所需。上任后,他迅速推動公司組織架構(gòu)重組,加大在制造與AI領(lǐng)域的投資,并將代工業(yè)務(wù)置于優(yōu)先位置。盡管面臨內(nèi)外多重挑戰(zhàn),英特爾股票在2025年上半年仍保持了穩(wěn)定走勢。 陳立武正在帶領(lǐng)
    的頭像 發(fā)表于 06-10 10:59 ?574次閱讀
    分析師:<b class='flag-5'>英特爾</b>轉(zhuǎn)型之路,機遇與挑戰(zhàn)并存

    直擊Computex 2025:英特爾重磅發(fā)布新一代GPU,圖形和AI性能躍升3.4倍

    B60和英特爾銳炫Pro B50 GPU,AI加速器產(chǎn)品—英特爾Gaudi 3 AI加速器。 英特爾副總裁兼客戶端顯卡總經(jīng)理Vivian
    的頭像 發(fā)表于 05-21 00:57 ?7480次閱讀
    直擊Computex 2025:<b class='flag-5'>英特爾</b>重磅發(fā)布新一代<b class='flag-5'>GPU</b>,圖形和AI性能躍升3.4倍

    直擊Computex2025:英特爾重磅發(fā)布新一代GPU,圖形和AI性能躍升3.4倍

    5月19日,在Computex 2025上,英特爾發(fā)布了最新全新圖形處理器(GPU)和AI加速器產(chǎn)品系列。包括全新英特爾銳炫? Pro B系列GPU——
    的頭像 發(fā)表于 05-20 12:27 ?5453次閱讀
    直擊Computex2025:<b class='flag-5'>英特爾</b>重磅發(fā)布新一代<b class='flag-5'>GPU</b>,圖形和AI性能躍升3.4倍

    英特爾發(fā)布全新GPU,AI和工作站迎來新選擇

    英特爾推出面向準(zhǔn)專業(yè)用戶和AI開發(fā)者的英特爾銳炫Pro GPU系列,發(fā)布英特爾? Gaudi 3 AI加速器機架級和PCIe部署方案 ? 2
    發(fā)表于 05-20 11:03 ?1845次閱讀

    英特爾宣布裁員20% 或2萬人失業(yè)

    建以工程師為導(dǎo)向的企業(yè)文化。 這也不是英特爾首次裁員,因為英特爾持續(xù)惡化的財務(wù)數(shù)據(jù)英特爾已經(jīng)進行了多輪裁員;在2024年英特爾為削減開支,裁員15%,當(dāng)時涉及1.5萬人。
    的頭像 發(fā)表于 04-25 17:34 ?625次閱讀

    英特爾首秀上海車展:以“芯”賦能,攜手合作伙伴推動全車智能化

    4月23日,在上海車展上,英特爾發(fā)布第二代英特爾AI增強軟件定義汽車(SDV)SoC,并披露全新合作伙伴關(guān)系。第二代英特爾AI增強SDV SoC率先在汽車行業(yè)推出基于芯粒架構(gòu)的設(shè)計,進
    的頭像 發(fā)表于 04-23 21:20 ?1326次閱讀
    <b class='flag-5'>英特爾</b>首秀上海車展:以“芯”賦能,攜手合作伙伴推動全車智能化

    英特爾酷睿Ultra AI PC上部署多種圖像生成模型

    全新英特爾酷睿Ultra 200V系列處理器對比上代Meteor Lake,升級了模塊化結(jié)構(gòu)、封裝工藝,采用全新性能核與能效核、英特爾硬件線程調(diào)度器、Xe2架構(gòu)銳炫
    的頭像 發(fā)表于 04-02 15:47 ?1489次閱讀
    在<b class='flag-5'>英特爾</b>酷睿Ultra AI PC上部署多種圖像生成模型