91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

彪悍的Graphcore第二代IPU!加速落地超大規(guī)模數(shù)據(jù)中心、金融、醫(yī)療健康等領(lǐng)域

晶芯觀察 ? 來源:電子發(fā)燒友網(wǎng) ? 作者:黃晶晶 ? 2020-08-13 14:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/黃晶晶)一家來自于英國的AI初創(chuàng)公司Graphcore,成立一年多時間里,融資超過4.5億美金,金融投資者包括紅杉資本、歐洲Atomico、以色列Pitango等,戰(zhàn)略投資者包括寶馬、Bosch、戴爾、微軟、三星等,受到資本的熱烈追捧。

最近,Graphcore發(fā)布第二代IPU芯片以及基于第二代IPU處理器的一系列的產(chǎn)品,性能對標(biāo)市面上的主流產(chǎn)品。據(jù)了解,Graphcore IPU采用大規(guī)模并行同構(gòu)眾核架構(gòu),其IPU Core是一個SMT多線程處理器,可以同時跑6個線程,類似多線程CPU,它與GPUSIMD/SMIT架構(gòu)不同。Graphcore IPU大量采用片上存儲SRAM,沒有外部DRAM。另外還采用了IPU-Fabric進(jìn)行片間互聯(lián)。Graphcore第二代IPU芯片在SRAM存儲容量、計(jì)算吞吐量以及通信方面又有了大幅提升。


Graphcore第二代IPU三大顛覆性技術(shù)

Graphcore第二代IPU芯片Colossus Mk2 GC200采用臺積電7nm工藝。在計(jì)算、數(shù)據(jù)與通信方面實(shí)現(xiàn)了技術(shù)突破。無論與公司第一代IPU還是目前市面上主流的GPU相比,其性能表現(xiàn)突出。Graphcore高級副總裁、中國區(qū)總經(jīng)理盧濤進(jìn)行了詳細(xì)解析。

計(jì)算

Colossus Mk2 GC200處理器是目前世界上最復(fù)雜的單一處理器,基于臺積電7納米的技術(shù),集成將近600億個晶體管,擁有250TFlops AI-Float的算力和900MB的處理器內(nèi)存儲。處理器內(nèi)核從上一代的1217提升到1472個獨(dú)立的處理器內(nèi)核,這樣一個處理器有將近9000個單獨(dú)的并行線程。相對于第一代產(chǎn)品,其系統(tǒng)級的性能提升了8倍以上。

同時In-Processor-Memory從上一代的300MB提升到900MB。每個IPU的Memory帶寬是47.5TB/s。還包含了IPU-Exchange以及PCI Gen4跟主機(jī)交互的一個接口;另外有IPU-Links 320GB/s的芯片到芯片的互聯(lián)。



數(shù)據(jù)

IPU Exchange Memory是一個交換式存儲的概念。如果跟英偉達(dá)當(dāng)前使用HBM技術(shù)的產(chǎn)品比較,Graphcore在M2000每個IPU-Machine里面通過IPU-Exchange-Memory技術(shù),提供了將近超過100倍的帶寬以及大約10倍的容量,這對于很多復(fù)雜的AI模型算法是非常有幫助的。

通信

此次,Graphcore專門為AI橫向擴(kuò)展設(shè)計(jì)了一個IPU-Fabric的結(jié)構(gòu)。IPU-Fabric可以做到2.8Tbps超低延時,同時最多可以支持64000個IPU之間的橫向擴(kuò)展。同時IPU-Fabric支持AI運(yùn)算的集合通信或者all-reduce的操作,這也是Fabric的技術(shù)特性。

目前Graphcore有三種產(chǎn)品形態(tài):一是IPU-Machine。二是IPU服務(wù)器,目前Graphcore已經(jīng)在全球范圍內(nèi)完成了浪潮和戴爾IPU服務(wù)器的產(chǎn)品適配。三是大規(guī)模橫向擴(kuò)展的IPU-POD系統(tǒng)級產(chǎn)品。

IPU-MachineM2000是一個1U結(jié)構(gòu)的即插即用的計(jì)算刀片,集成4個IPU Mk2GC200處理器,總共有1PFlops16.16的算力,和近6000個處理器的核心,以及超過35000個并行的線程,In-Processor Memory達(dá)到了3.6GB,Exchange Memory有450GB,以及2.8TbpsIPU-Fabric超低延時通信。非常易于部署,IPU-M2000可以滿足當(dāng)前最苛刻的一些機(jī)器智能的工作負(fù)載。當(dāng)前建議零售價是32,450美金。






IPU-M2000擁有多種配置形態(tài),M2000是我們在構(gòu)建超大規(guī)模的、彈性的AI計(jì)算集群中間的一個基本單元,可以從1個到4個、8個,到64個,最多可以到64000個,自由組合計(jì)算規(guī)模。

用于超算規(guī)模的IPU-POD,IPU-POD64是IPU-POD的一個基本組件,IPU-POD64總共支持了16個IPU-M2000,可以根據(jù)不同的工作負(fù)載進(jìn)行不同的配置。另外,目前支持的2D-Torus拓?fù)?,最大化IPU-Link的帶寬,全縮減(all-reduce)的效率比網(wǎng)狀拓?fù)涞囊靸杀?,這樣一個架構(gòu)可以擴(kuò)展到64000個GC200的IPU。

由于把AI的計(jì)算跟邏輯的控制進(jìn)行了解耦,因此非常易于部署,網(wǎng)絡(luò)延時非常低,能夠支持大型的算法模型,以及安全的多用戶使用,

按64000個IPU集群計(jì)算,總共能提供16個EFlops FP16的算力,盧濤表示,日本前一陣發(fā)布的超算實(shí)現(xiàn)0.5 EFlops算力。而我們基于64000個IPU總共可以組建16個EFlops算力,這個是非常驚人的算力。

性能PK

IPU Mk2與Mk1進(jìn)行對比,計(jì)算達(dá)到了兩倍以上的吞吐量峰值能力;數(shù)據(jù)方面,六倍以上的處理器內(nèi)的有效存儲,超過了446GB的 IPU-Machine流存儲;通信方面,加入了基于大規(guī)模橫向擴(kuò)展的IPU-Fabric的技術(shù)。






處理器內(nèi)存儲從300MB到900MB,看起來是三倍的提升,但是片內(nèi)存儲分為兩部分,程序占用的存儲空間以及供模型的激活、權(quán)重的存儲空間。因?yàn)閷τ?a href="http://m.makelele.cn/v/tag/1780/" target="_blank">程序代碼空間的占用情況在Mk1和Mk2是同樣的,這樣供算法模型可用的權(quán)重和激活容量有6倍以上的有效存儲。



Mk2與Mk1系統(tǒng)級的對比中,配備有IPU-Link的8個C2 PCIe的IPU服務(wù)器和Mk2配備有IPU-Fabric的8個IPU-M2000比較,在三個比較典型的應(yīng)用場景,在BERT-Large訓(xùn)練,MK2有9.3倍性能的提升。BERT三層推理,實(shí)現(xiàn)8. 5倍的性能提升。EfficientNet-B3這類計(jì)算機(jī)視覺應(yīng)用模型,有7.4 倍的性能提升。



8個M2000與基于英偉達(dá)DGX-A100的整機(jī)(8個A100)對比中,后者FP32的計(jì)算能力是156TFlops,而8個M2000做到了2PFlops的算力,大約12倍的FP32性能的提升。對于AI計(jì)算,在GPU的平臺上是2.5PFlops,在M2000的平臺上是8PFlops,大約有三倍的提升。針對AI存儲部分,相對后者320GB,前面有3.6TB的存儲,將近10倍的提升。另外,從系統(tǒng)架構(gòu)來說,花199K美金買到最新的GPU的算力和存儲空間,對于Graphcore的平臺,可能會花259k美金就能買到12倍的運(yùn)算能力和10倍的存儲空間。

軟件與平臺生態(tài)

對于AI的落地應(yīng)用,軟件生態(tài)可能比硬件更重要。Graphcore在提供高性能IPU芯片的同時,也在加速軟件和平臺生態(tài)的建設(shè)。

Graphcore 中國區(qū)技術(shù)應(yīng)用總負(fù)責(zé)人羅旭介紹了Poplar軟件的最新版本特性。Poplar包括PopART和PopLibs,PopLibs相當(dāng)于SDK,PopART相當(dāng)于run time,通過PopART和PopLibs,連接到Poplar的compute graph,再通過graph compiler,相當(dāng)于在整個處理器軟件跟硬件結(jié)合最緊密的地方轉(zhuǎn)成一個計(jì)算圖,然后把這個計(jì)算圖加載到對應(yīng)的硬件,也就是IPU-Machine。



Poplar支持的算法框架包括PyTorch、TensorFlow、ONNX,mxnet,以及前段時間百度發(fā)布的PaddlePaddle。同一套軟件可以實(shí)現(xiàn)推理和訓(xùn)練。



最新發(fā)布的SDK 1.2主要特性在于,與比較先進(jìn)的機(jī)器學(xué)習(xí)框架做更好的集成;進(jìn)一步開放低級別的API,上層的算法提供一個低層次的API接口,針對網(wǎng)絡(luò)的性能做一些特定的調(diào)優(yōu);增加框架支持,包括對PyTorch和Keras的支持。另外卷積庫和稀疏庫。PopART方面,可以做到多機(jī)的數(shù)據(jù)并行訓(xùn)練。

羅旭還談到,我們把Exchange Memory也做了一些開放,包括API以及它的管理功能的開放。應(yīng)用開發(fā)者可以基于Exchange Memory對模型的性能做極大程度的調(diào)優(yōu)。



針對數(shù)據(jù)中心目前主流的操作系統(tǒng)ubuntu、RedHat、CentOS,現(xiàn)在Poplar SDK、drivers、工具鏈等也是完全支持的。



7月6號,PopLibs在GitHub上開源。用戶可以直接在GitHub上去搜索Graphcore下載對應(yīng)鏈接。

Graphcore 在中國的首款I(lǐng)PU 開發(fā)者云部署在金山云之上,這里面使用了三種IPU產(chǎn)品,IPU-POD64,浪潮的IPU服務(wù)器NF5568M5,以及戴爾的IPU服務(wù)器DSS8440,目前這個是面向商業(yè)用戶進(jìn)行評測以及面向高校研究機(jī)構(gòu),甚至個人開發(fā)者能夠提供免費(fèi)的試用。



對于商業(yè)用戶來說,通常為三周或者按需適度延長,可以通用IPU極大優(yōu)化現(xiàn)有模型,產(chǎn)品較競爭對手更早實(shí)現(xiàn)產(chǎn)品化和市場化。對大學(xué)、研究機(jī)構(gòu)和個人研究者,可以提供6個月的免費(fèi)訪問,直至完成研究項(xiàng)目并發(fā)表結(jié)果。

IPU與GPU不是競爭關(guān)系

盧濤認(rèn)為,IPU是面向未來的另一大計(jì)算平臺,它與CPU、GPU不是競爭的關(guān)系,有交叉有不同。當(dāng)前AI主流計(jì)算平臺仍是CPU和GPU,甚至一些算法也是基于GPU發(fā)展而來。Graphcore的愿景是畫第三個圓,我們認(rèn)為CPU與GPU并沒有從根本意義上解決AI的問題。AI是一個面向計(jì)算圖的計(jì)算任務(wù),跟CPU的標(biāo)量計(jì)算以及GPU的矢量計(jì)算都不同。

從此,CPU、GPU、IPU有重疊相交的部分,必然會在某些領(lǐng)域進(jìn)行競爭。例如,目前在NLP、CV這兩個領(lǐng)域的競爭會有一段膠著時期。但是未來會有更多IPU獨(dú)擋一面的應(yīng)用,有待我們進(jìn)行挖掘。

本文由電子發(fā)燒友網(wǎng)原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。如需轉(zhuǎn)載,請?zhí)砑游?a target="_blank">信號elecfans999。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    18

    文章

    5654

    瀏覽量

    75039
  • IPU
    IPU
    +關(guān)注

    關(guān)注

    0

    文章

    35

    瀏覽量

    15962
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    2129

    瀏覽量

    36796
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    中科曙光scaleX萬卡超集群重塑超大規(guī)模算力基礎(chǔ)設(shè)施

    在“人工智能+”行動深入推進(jìn)的當(dāng)下,算力基礎(chǔ)設(shè)施已成為國家戰(zhàn)略競爭力的核心,而超大規(guī)模集群的運(yùn)維管控難題卻日益凸顯。中科曙光scaleX萬卡超集群打造的智能管理體系,正以“能管住-管得穩(wěn)-用得好”的進(jìn)階邏輯,重塑超大規(guī)模算力基礎(chǔ)設(shè)施的運(yùn)行范式,讓萬級節(jié)點(diǎn)協(xié)同從行業(yè)痛點(diǎn)變?yōu)?/div>
    的頭像 發(fā)表于 01-30 15:43 ?756次閱讀

    淺談新一代數(shù)據(jù)中心先進(jìn)熱管理策略

    數(shù)據(jù)中心的功耗需求持續(xù)攀升,對高效熱管理技術(shù)提出了更高要求。隨著人工智能與大語言模型(LLM)的飛速發(fā)展,為市場提供超大規(guī)模云計(jì)算服務(wù)及基礎(chǔ)設(shè)施的超大規(guī)模云服務(wù)商(hyperscaler),正面臨前所未有的電力消耗壓力。
    的頭像 發(fā)表于 01-28 16:16 ?515次閱讀

    新品 | CoolSiC? MOSFET 650V第二代產(chǎn)品,新增75m?型號

    新品CoolSiCMOSFET650V第二代產(chǎn)品,新增75m?型號CoolSiCMOSFET650V第二代器件基于性能卓越的第一溝槽SiCMOSFET技術(shù)打造,通過提升性能、增強(qiáng)設(shè)計(jì)靈活性及魯棒性
    的頭像 發(fā)表于 01-12 17:03 ?332次閱讀
    新品 | CoolSiC? MOSFET 650V<b class='flag-5'>第二代</b>產(chǎn)品,新增75m?型號

    新品 | CoolSiC? MOSFET 400V與440V第二代器件

    新品CoolSiCMOSFET400V與440V第二代器件CoolSiCMOSFET400V與440V第二代器件兼具高魯棒性、超低開關(guān)損耗與低通態(tài)電阻優(yōu)勢,同時有助于優(yōu)化系統(tǒng)成本。該系列400V
    的頭像 發(fā)表于 12-31 09:05 ?615次閱讀
    新品 | CoolSiC? MOSFET 400V與440V<b class='flag-5'>第二代</b>器件

    TeledyneLeCroy發(fā)布第二代DisplayPort 2.1 PHY合規(guī)測試與調(diào)試解決方案

    TeledyneLeCoy(Teledyne子公司)宣布第二代QualiPHY 2自動化合規(guī)測試框架現(xiàn)已支持DisplayPort 2.1物理層(PHY)合規(guī)性測試。
    的頭像 發(fā)表于 12-26 11:04 ?1595次閱讀

    新品 | 采用.XT擴(kuò)散焊和第二代1200V SiC MOSFET的Easy C系列

    新品采用.XT擴(kuò)散焊和第二代1200VSiCMOSFET的EasyC系列EasyPACK2C1200V8mΩ三電平模塊、EasyPACK2C1200V8mΩ四單元模塊以及
    的頭像 發(fā)表于 11-24 17:05 ?1480次閱讀
    新品 | 采用.XT擴(kuò)散焊和<b class='flag-5'>第二代</b>1200V SiC MOSFET的Easy C系列

    偉創(chuàng)力高效電源模塊在超大規(guī)模數(shù)據(jù)中心的應(yīng)用

    受云端存儲和數(shù)據(jù)處理需求持續(xù)增長的推動,數(shù)據(jù)中心正以前所未有的速度擴(kuò)張。當(dāng)前全球超大規(guī)模數(shù)據(jù)中心,即規(guī)模最大的那些數(shù)據(jù)中心,總?cè)萘吭谶^去四年
    的頭像 發(fā)表于 07-07 15:41 ?1271次閱讀

    AMD第二代Versal AI Edge和Versal Prime系列加速量產(chǎn) 為嵌入式系統(tǒng)實(shí)現(xiàn)單芯片智能

    我們推出了 AMD 第二代 Versal AI Edge 系列和第二代 Versal Prime 系列,這兩款產(chǎn)品是對 Versal 產(chǎn)品組合的擴(kuò)展,可為嵌入式系統(tǒng)實(shí)現(xiàn)單芯片智能。
    的頭像 發(fā)表于 06-11 09:59 ?1874次閱讀

    納微半導(dǎo)體推出12kW超大規(guī)模AI數(shù)據(jù)中心電源

    近日,納微半導(dǎo)體宣布推出專為超大規(guī)模AI數(shù)據(jù)中心設(shè)計(jì)的最新12kW量產(chǎn)電源參考設(shè)計(jì),可適配功率密度達(dá)120kW的高功率服務(wù)器機(jī)架。
    的頭像 發(fā)表于 05-27 16:35 ?1576次閱讀

    恩智浦推出第二代OrangeBox車規(guī)級開發(fā)平臺

    第二代OrangeBox開發(fā)平臺集成AI功能、后量子加密技術(shù)及內(nèi)置軟件定義網(wǎng)絡(luò)的能力,應(yīng)對快速演變的信息安全威脅。
    的頭像 發(fā)表于 05-27 14:25 ?1404次閱讀

    BDx成功融資助力香港超大規(guī)模數(shù)據(jù)中心擴(kuò)建

    ?亞太地區(qū)發(fā)展勢頭迅猛的數(shù)據(jù)中心運(yùn)營商BDx數(shù)據(jù)中心宣布,其香港首個專用超大規(guī)模數(shù)據(jù)中心開發(fā)項(xiàng)目融資已順利完成。此次融資由Clifford Capital、大華銀行(UOB)和三井住友銀行(SMBC
    的頭像 發(fā)表于 05-22 17:27 ?695次閱讀

    第二代AMD Versal Premium系列SoC滿足各種CXL應(yīng)用需求

    。無論您是高級自適應(yīng) SoC 開發(fā)人員,還是 CXL 初學(xué)者,第二代 Versal Premium 系列都能提供靈活的 CXL 3.1 子系統(tǒng),非常適合內(nèi)存擴(kuò)展、內(nèi)存池化和內(nèi)存加速應(yīng)用。
    的頭像 發(fā)表于 04-24 14:52 ?1279次閱讀
    <b class='flag-5'>第二代</b>AMD Versal Premium系列SoC滿足各種CXL應(yīng)用需求

    適用于數(shù)據(jù)中心和AI時代的800G網(wǎng)絡(luò)

    ,成為新一AI數(shù)據(jù)中心的核心驅(qū)動力。 AI時代的兩大數(shù)據(jù)中心:AI工廠與AI云 AI時代催生了兩類數(shù)據(jù)中心架構(gòu): AI工廠:用于大規(guī)模
    發(fā)表于 03-25 17:35

    優(yōu)化800G數(shù)據(jù)中心:高速線纜、有源光纜和光纖跳線解決方案

    廣泛應(yīng)用于網(wǎng)卡、交換機(jī)、服務(wù)器、超級計(jì)算機(jī)、云計(jì)算和數(shù)據(jù)中心的短距離互連。 800G高速線纜 隨著大規(guī)模超大規(guī)模數(shù)據(jù)中心的興起,服務(wù)器機(jī)架的功耗顯著增加,垂直布線距離減少。因此,800G
    發(fā)表于 03-24 14:20

    Framework召開第二代產(chǎn)品發(fā)布會,新品搶先看!

    2025年2月25日,F(xiàn)ramework在美國舊金山召開了盛大的第二代產(chǎn)品發(fā)布會。Framework發(fā)布了有史以來最大規(guī)模的一系列新品,包括Framework臺式機(jī)
    的頭像 發(fā)表于 03-19 17:55 ?1514次閱讀
    Framework召開<b class='flag-5'>第二代</b>產(chǎn)品發(fā)布會,新品搶先看!