国产极品一级91视频激情,国产一区二区三区成人电影,国产一级a毛一级A毛片

頭部廠商紛紛切入AI ASIC領(lǐng)域，技術(shù)路徑不同。

谷歌15年發(fā)布第一代TPU（ASIC）產(chǎn)品，TPU產(chǎn)品持續(xù)迭代升級。英特爾19年收購人工智能芯片公司Habana Labs，22年發(fā)布AI ASIC芯片Gaudi 2，性能表現(xiàn)出色；IBM研究院22年底發(fā)布AI ASIC芯片AIU，有望23年上市；三星第一代AIASIC芯片Warboy NPU芯片已于近日量產(chǎn)。

頭部廠商紛紛切入 AI ASIC領(lǐng)域，看好ASIC在人工智能領(lǐng)域的長期成長性。

谷歌：谷歌為AI ASIC芯片的先驅(qū)，于15年發(fā)布第一代TPU（ASIC）產(chǎn)品，大幅提升AI推理的性能；17年發(fā)布TPU v2，在芯片設計層面，進行大規(guī)模架構(gòu)更新，使其同時具備AI推理和AI訓練的能力；谷歌TPU產(chǎn)品持續(xù)迭代升級，21年發(fā)布TPU v4，采用7nm工藝，峰值算力達275TFLOPS，性能表現(xiàn)全球領(lǐng)先。

英特爾：19年底收購以色列人工智能芯片公司Habana Labs，22年發(fā)布Gaudi 2 ASIC芯片。從架構(gòu)來看，Gaudi架構(gòu)擁有雙計算引擎（MME和TPC），可以實現(xiàn)MME和TPC并行計算，大幅提升計算效率；同時，其將RDMA技術(shù)應用于芯片互聯(lián)，大幅提升AI集群的并行處理能力；從性能來看，Gaudi 2在ResNET-50、BERT、BERT Phase-1、BERT Phase-2模型的訓練吞吐量優(yōu)于英偉達A100，性能表現(xiàn)優(yōu)異。

頭部廠商紛紛切入AI ASIC領(lǐng)域，技術(shù)路徑不同。本文內(nèi)容來自“GPT-5后NLP大模型逐步走向收斂，ASIC將大有可為”，詳細介紹谷歌——全球AI ASIC先驅(qū)，TPU產(chǎn)品持續(xù)迭代，以及英特爾——收購Habana Lab，Gaudi 2性能表現(xiàn)出色。

1、ASIC具有性能高、體積小、功率低等特點

ASIC具有性能高、體積小、功率低等特點。AI芯片指專門用于運行人工智能算法且做了優(yōu)化設計的芯片，為滿足不同場景下的人工智能應用需求，AI芯片逐漸表現(xiàn)出專用性、多樣性的特點。根據(jù)設計需求，AI芯片主要分為中央處理器（CPU）、圖形處理器（GPU）、現(xiàn)場可編程邏輯門陣列（FPGA）、專用集成電路（ASIC）等，相比于其他AI芯片，ASIC具有性能高、體積小、功率低等特點。

CPU-》GPU-》ASIC，ASIC成為AI芯片重要分支。

1）CPU階段：尚未出現(xiàn)突破性的AI算法，且能獲取的數(shù)據(jù)較為有限，傳統(tǒng)CPU可滿足算力要求；

2）GPU階段：2006年英偉達發(fā)布CUDA架構(gòu)，第一次讓GPU具備了可編程性，GPU開始大規(guī)模應用于AI領(lǐng)域；

3）ASIC階段：2016年，Google發(fā)布TPU芯片（ASIC類），ASIC克服了GPU價格昂貴、功耗高的缺點，ASIC芯片開始逐步應用于AI領(lǐng)域，成為AI芯片的重要分支。

ASIC芯片在推理領(lǐng)域具有明顯優(yōu)勢，有望在該領(lǐng)域率先出現(xiàn)爆品。根據(jù)CSET數(shù)據(jù)，ASIC芯片在推理領(lǐng)域優(yōu)勢明顯，其效率和速度約為CPU的100-1000倍，相較于GPU和FPGA具備顯著競爭力。盡管ASIC芯片同樣可以應用于訓練領(lǐng)域（例如TPU v2、v3、v4），但我們認為其將在推理領(lǐng)域率先出現(xiàn)爆品。

預計ASIC在AI芯片的占比將大幅提升。根據(jù)McKinsey Analysis數(shù)據(jù)，在數(shù)據(jù)中心側(cè)，25年ASIC在推理/訓練應用占比分別達到40%、50%；在邊緣側(cè)，25年ASIC在推理/訓練應用占比分別達到70%、70%，ASIC在AI芯片的占比將大幅提升。

2、多種類AI芯片并存，頭部廠商紛紛切入ASIC領(lǐng)域

多種類AI芯片并存，頭部廠商紛紛切入ASIC領(lǐng)域。

英偉達延續(xù)GPU路線，22年發(fā)布H100芯片，目前廣泛應用于云端訓練和推理；

AMD利用自身技術(shù)積累，將CPU和GPU集成在一起，推出Instinct MI300芯片，預計23年H2上市。

頭部廠商開始切入ASIC領(lǐng)域，Google為AI ASIC芯片的先驅(qū)，21年推出TPU v4，運算效能大幅提升；英特爾19年收購Habana Lab，22年推出Gaudi2 ASIC芯片；IBM、三星等頭部廠商亦紛紛切入ASIC領(lǐng)域。

3、谷歌：全球AI ASIC先驅(qū)，TPU產(chǎn)品持續(xù)迭代；性能表現(xiàn)，A100《TPU v4《H100

谷歌為全球AI ASIC先驅(qū)，TPU產(chǎn)品持續(xù)迭代。谷歌2015年發(fā)布TPU v1，與使用通用CPU和GPU的神經(jīng)網(wǎng)絡計算相比，TPU v1帶來了15~30倍的性能提升和30~80倍的能效提升，其以較低成本支持谷歌的很多服務，僅可用于推理；17年發(fā)布TPU v2，用于加速大量的機器學習和人工智能工作負載，包括訓練和推理；18年發(fā)布TPU v3，算力和功率大幅增長，其采用了當時最新的液冷技術(shù)；20年和21年分別發(fā)布TPU v4i和v4，應用7nm工藝，晶體管數(shù)大幅提升，算力提升，功耗下降。

TUP v4性能表現(xiàn)優(yōu)于英偉達A100。TPU v4的性能表現(xiàn)在BERT、ResNet、DLRM、RetinaNet、MaskRCNN下分別為A100的1.15x、1.67x、1.05x、1.87x和1.37x，性能表現(xiàn)優(yōu)于英偉達A100。

TUP v4性能表現(xiàn)略遜于H100，但功耗管理能力出色。根據(jù)《AI and ML Accelerator Survey and Trends》數(shù)據(jù)，英偉達H100的峰值性能表現(xiàn)高于TUP v4，而TUP v4作為ASIC芯片，在功耗管理方面表現(xiàn)出色，峰值功率低于H100。

4、谷歌：TPU v1架構(gòu)

統(tǒng)一緩沖器（Unified Buffer）和矩陣乘法單元（MMU）占據(jù)53%的芯片總面積。TPU v1主要包括統(tǒng)一緩沖器（Unified Buffer）、矩陣乘法單元（MMU）、累加器（Accumulators）、激活流水線電路（Activation Pipeline）、DDAM等，其中統(tǒng)一緩沖器和矩陣乘法單元面積占比最高，合計達53%。

TPU v1工作流程：

1）芯片啟動，緩沖區(qū)和DDR3為空；

2）用戶加載TPU編譯的模型，將權(quán)重放入DDR3內(nèi)存；

3）主機用輸入值填充激活緩沖區(qū)；

4）發(fā)送控制信號將一層權(quán)重加載到矩陣乘法單元；

5）主機觸發(fā)執(zhí)行，激活并通過矩陣乘法單元傳播到累加器；

6）通過激活流水線電路，新層替換緩沖區(qū)的舊層；

7）重復步驟4-7，直到最后一層；

8）最后一層的激活被發(fā)送給主機。

5、谷歌：TPU v2架構(gòu)，基于TPU v1的大規(guī)模架構(gòu)更新

TPU v2內(nèi)核數(shù)增加值2個。TPU v1僅有1個Tensor Core，導致管道更為冗長。TPU v2的內(nèi)核數(shù)增加為2個，對編譯器也更為友好。

MXU利用率提升。TPU v1的MXU包含256*256個乘積累加運算器，由于部分卷積計算規(guī)模小于256*256，導致單個大核的利用率相對較低；而TPU v2的單核MXU包含128*128個乘積累加運算器，在一定程度上，提升了MXU利用率。

6、谷歌：TPU v3延續(xù)v2架構(gòu)，性能提升，TDP優(yōu)化

谷歌TPU v3延續(xù)v2架構(gòu)，性能提升。TPU V3在v2架構(gòu)的基礎上，矩陣乘法單元（MXU）數(shù)量提升翻倍，時鐘頻率加快30%，內(nèi)存帶寬加大30%，HBM容量翻倍，芯片間帶寬擴大了30%，可連接的節(jié)點數(shù)為先前4倍，性能大幅提升。

采用液冷技術(shù)，TDP優(yōu)化。TPU v3采用液冷技術(shù)，峰值算力為TPU v2的2.67倍，而TDP僅為TPU v2的1.61倍，TDP大幅優(yōu)化。

7、谷歌：TPU v4，硬件性能進一步提升

MXU數(shù)量翻倍，峰值算力大幅提升。從硬件提升來看，根據(jù)Google Cloud數(shù)據(jù)，TPU v4芯片包含2個TensorCore，每個TensorCore包含4個MXU，是TPUv3的2倍；同時，HBM帶寬提升至1200 GBps，相比上一代，提升33.33%。從峰值算力來看，TPU v4的峰值算力達275 TFLOPS，為TPU v3峰值算力的2.24倍。

谷歌的超級計算機構(gòu)想：將4*4*4（64）個TPU v4芯片連接成1個立方體結(jié)構(gòu)（Cube），再將4*4*4個立方體結(jié)構(gòu)（Cube）連接成共有4096個TPU v4芯片的超級計算機，其中物理距離較近TPU v4芯片（即同一個Cube中的4*4*4個芯片）采用常規(guī)電互聯(lián)方式，距離較遠的TPU（例如Cube之間的互聯(lián)）間用光互連。采用光互連技術(shù)可以有效避免“芯片等數(shù)據(jù)”的情形出現(xiàn)，進而提升計算效率。

可重配置光互連技術(shù)可以進一步提升計算性能。谷歌TPU v4通過加入光路開關(guān)（OCS）的方式，可以根據(jù)具體模型數(shù)據(jù)流來調(diào)整TPU之間的互聯(lián)拓撲，實現(xiàn)最優(yōu)性能，可重配置光互連技術(shù)可以將性能提升至先前的1.2-2.3倍。

可重配置光互連技術(shù)提升計算機的穩(wěn)定性。若計算機中部分芯片出現(xiàn)故障，可以通過該技術(shù)繞過故障芯片，進而不會影響整個系統(tǒng)的工作。

8、英特爾：Gaudi架構(gòu)實現(xiàn)MME和TPC并行運算

英特爾收購Habana Lab。Habana Labs成立于2016年，總部位于以色列，是一家為數(shù)據(jù)中心提供可編程深度學習加速器廠商，2019年發(fā)布第一代Gaudi。英特爾于2019年底收購Habana Lab，旨在加快其在人工智能芯片領(lǐng)域的發(fā)展，2022年發(fā)布Gaudi 2。

Gaudi架構(gòu)實現(xiàn)MME和TPC并行運算。Gaudi架構(gòu)包含2個計算引擎，即矩陣乘法引擎（MME）和TPC（張量處理核心）；Gaudi架構(gòu)使得MME和TPC計算時間重疊，進行并行運算，進而大幅提升計算效率。

Gaudi 2延續(xù)上一代架構(gòu)，硬件配置大幅提升。Gaudi 2架構(gòu)基本與上一代相同，TPC數(shù)量從8個提升至24個，HBM數(shù)量從4個提升至6個（總內(nèi)存從32GB提升至96GB），SRAM存儲器提升一倍，RDMA從10個提升至24個，同時集成了多媒體處理引擎，硬件配置大幅提升。

RDMA技術(shù)用于芯片互聯(lián)，大幅提升并行處理能力。RDMA是一種遠端內(nèi)存直接訪問技術(shù)，具有高速、超低延遲和極低CPU使用率的特點。Gaudi將RDMA集成在芯片上，用于實現(xiàn)芯片間互聯(lián)，大幅提升AI集群的并行處理能力；同時，Gaudi支持通用以太網(wǎng)協(xié)議，客戶可以將Gaudi放入現(xiàn)有的數(shù)據(jù)中心，使用標準以太網(wǎng)構(gòu)建AI集群。

Gaudi 2性能表現(xiàn)出色。根據(jù)《Habana Gaudi 2 White Paper》披露數(shù)據(jù)，Gaudi 2在ResNET-50、BERT、BERT Phase-1、BERT Phase-2模型的訓練吞吐量分別為A100（40GB，7nm）的2.0、2.4、2.1、3.3x，性能表現(xiàn)出色。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴