91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是張量處理單元(TPU)

OpenFPGA ? 來源:OpenFPGA ? 作者:OpenFPGA ? 2022-04-27 09:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

介紹

張量處理單元( Tensor Processing Unit, TPU ) 是谷歌專門為神經(jīng)網(wǎng)絡(luò)機器學(xué)習(xí)開發(fā)的人工智能加速器 專用集成電路(ASIC) ,特別是使用谷歌自己的TensorFlow軟件。谷歌于 2015 年開始在內(nèi)部使用 TPU,并于 2018 年將它們作為其云基礎(chǔ)設(shè)施的一部分并通過提供較小版本的芯片出售給第三方使用。

張量處理單元于 2016 年 5 月在Google I/O上宣布:當(dāng)時該公司表示 TPU 已經(jīng)在其數(shù)據(jù)中心內(nèi)使用了一年多。該芯片專為 Google 的TensorFlow框架設(shè)計,用于神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)應(yīng)用。

與圖形處理單元相比,它設(shè)計用于大量低精度計算(例如低至8 位精度) ,每焦耳有更多的輸入/輸出操作,無需用于光柵化/紋理映射的硬件。根據(jù)Norman Jouppi的說法, TPU ASIC安裝在散熱器組件中,該組件可以安裝在數(shù)據(jù)中心機架內(nèi)的硬盤驅(qū)動器插槽中。不同類型的處理器適合不同類型的機器學(xué)習(xí)模型,TPU 非常適合CNN而 GPU 對一些全連接的神經(jīng)網(wǎng)絡(luò)有長處,而 CPU 對RNN有長處。

經(jīng)過幾年的發(fā)展,TPU已經(jīng)發(fā)布了四個版本,下面是其發(fā)展歷程:

1a874066-c5c2-11ec-bce3-dac502259ad0.png

詳細(xì)介紹:<【科普】什么是TPU?>

接下來介紹一些TPU項目。

tinyTPU

?

https://github.com/jofrfu/tinyTPU

1a9b6992-c5c2-11ec-bce3-dac502259ad0.png

該項目的目的是創(chuàng)建一個與谷歌的張量處理單元具有相似架構(gòu)的機器學(xué)習(xí)協(xié)處理器。該實現(xiàn)的資源可定制,可以以不同的尺寸使用以適應(yīng)每種類型的 FPGA。這允許在嵌入式系統(tǒng)物聯(lián)網(wǎng)設(shè)備中部署該協(xié)處理器,但也可以擴(kuò)大規(guī)模以用于數(shù)據(jù)中心和高性能機器。AXI 接口允許以多種組合方式使用。對 Xilinx Zynq 7020 SoC 進(jìn)行了評估。下面的鏈接中是使用vivado進(jìn)行使用的一個DEMO:

?

https://github.com/jofrfu/tinyTPU/blob/master/getting_started.pdf

同時,該項目也是一片論文的驗證項目,論文地址:

?

https://reposit.haw-hamburg.de/bitstream/20.500.12738/8527/1/thesis.pdf

性能

使用 MNIST 數(shù)據(jù)集訓(xùn)練的樣本模型在不同大小的 MXU 上進(jìn)行了評估,頻率為 177.77 MHz,理論性能高達(dá) 72.18 GOPS。然后將實際時序測量與傳統(tǒng)處理器進(jìn)行比較:

177.77 MHz 的張量處理單元:

Matrix Width N 6 8 10 12 14
Instruction Count 431 326 261 216 186
Duration in us (N input vectors) 383 289 234 194 165
Duration per input vector in us 63 36 23 16 11

下面是其他處理器的對比結(jié)果:

Processor Intel Core i5-5287U at 2.9 GHz BCM2837 4x ARM Cortex-A53 at 1.2 GHz
Duration per input vector in us 62 763

Free-TPU

?

https://github.com/embedeep/Free-TPU

1abae484-c5c2-11ec-bce3-dac502259ad0.png

編譯好的BOOTbin,因為TPU和引腳沒關(guān)聯(lián),所以可以直接進(jìn)行使用驗證。

?

https://github.com/embedeep/Free-TPU-OS

1acce22e-c5c2-11ec-bce3-dac502259ad0.png

描述

Free TPU是用于深度學(xué)習(xí) EDGE 推理的商業(yè) TPU 設(shè)計的免費版本,可以部署在任何 FPGA 設(shè)備上,包括 Xilinx Zynq-7020 或 Kintex7-160T(這兩個都是生產(chǎn)的好選擇)。實際上,不僅是 TPU 邏輯設(shè)計, Free TPU還包括支持所有 caffe 層的 EEP 加速框架,可以在任何 CPU 上運行(如 Zynq-7020 的 ARM A9 或 INTEL/AMD)。TPU 和 CPU 在深度學(xué)習(xí)推理框架的計劃下相互協(xié)作(任何交替順序)。

系統(tǒng)結(jié)構(gòu)

1adf7498-c5c2-11ec-bce3-dac502259ad0.png

對比

1b007d0a-c5c2-11ec-bce3-dac502259ad0.png

1b27e32c-c5c2-11ec-bce3-dac502259ad0.png

在用戶看來,F(xiàn)ree-TPU和EEP-TPU功能相同,但推理時間不同。

這是一個極其完整的項目,關(guān)于怎么運行,怎么調(diào)用都有很詳細(xì)的步驟,這里就不再贅述了,更多詳情,請訪問:

?

https://www.embedeep.com

SimpleTPU

?

https://github.com/cea-wind/SimpleTPU

1b4946a2-c5c2-11ec-bce3-dac502259ad0.png

張量處理單元旨在加速矩陣乘法,特別是對于多層感知器和卷積神經(jīng)網(wǎng)絡(luò)。

此實現(xiàn)主要遵循 Google TPU Version 1,該架構(gòu)在

?

https://arxiv.org/ftp/arxiv/papers/1704/1704.04760.pdf

中有介紹。

主要特點

Simple TPU 的主要特性包括

Int8 乘法和 Int32 累加器

基于 VLIW 的并行指令

基于向量架構(gòu)的數(shù)據(jù)并行

以下是 Simple TPU 可以支持的一些操作。

1b7133ce-c5c2-11ec-bce3-dac502259ad0.png

資源占用情況

1b8fa2b4-c5c2-11ec-bce3-dac502259ad0.png

雖然該工程比較完整,后續(xù)也有DEMO演示,但是該工程使用HLS制作的,詳細(xì)信息可以查看下面的網(wǎng)址

?

https://www.cnblogs.com/sea-wind/p/10993958.html

tiny-tpu

?

https://github.com/cameronshinn/tiny-tpu

谷歌的TPU架構(gòu):

1bab16d4-c5c2-11ec-bce3-dac502259ad0.jpg

1bc0e216-c5c2-11ec-bce3-dac502259ad0.png

Tiny TPU是基于 FPGA 的 Google張量處理單元的小規(guī)模實現(xiàn)。該項目的目標(biāo)是了解加速器設(shè)計從硬件到軟件的端到端技術(shù),同時破譯谷歌專有技術(shù)的低層次復(fù)雜性。在此過程中,我們探索了小規(guī)模、低功耗 TPU 的可能性。

該項目在 Quartus 15.0 上綜合并編程Altera DE1-SoC FPGA 上。

1bde5094-c5c2-11ec-bce3-dac502259ad0.png

更多詳細(xì)信息:

?

https://github.com/cameronshinn/tiny-tpu/blob/master/docs/report/report.pdf

TPU-Tensor-Processing-Unit

?

https://github.com/leo47007/TPU-Tensor-Processing-Unit

介紹

在有兩個矩陣需要做矩陣乘法的場景下,矩陣A(選擇權(quán)重矩陣)與矩陣B(選擇矩陣)相,每一個一個都是 32x32。最后他們開始做每個矩陣的乘法,每個矩陣的因素將首先轉(zhuǎn)換成一個順序輸入 TPU 中,輸入其特定的矩陣,然后再將這些單元最多向連接的方向輸入。在下一個周期中,每個單元將其權(quán)重和數(shù)據(jù)方向賦予下一個格。從左到右。

1bf48576-c5c2-11ec-bce3-dac502259ad0.png

因為這個項目有中文的詳細(xì)介紹,所以就不過多贅述了。

?

https://zhuanlan.zhihu.com/p/26522315

Systolic-array-implementation-in-RTL-for-TPU

?

https://github.com/abdelazeem201/Systolic-array-implementation-in-RTL-for-TPU

1c176726-c5c2-11ec-bce3-dac502259ad0.png

如下圖所示,在有兩個矩陣需要做矩陣乘法的場景下,矩陣A(命名權(quán)重矩陣)與矩陣B(命名數(shù)據(jù)矩陣)相乘,每個矩陣為8x8。一旦他們開始做矩陣乘法,兩個矩陣的這些系數(shù)將首先轉(zhuǎn)換成一個順序輸入到 TPU 中,然后輸入到每個特定的隊列中。然后這些隊列將最多向其連接的單元輸出 8 個數(shù)據(jù),這些單元將根據(jù)它接收到的權(quán)重和數(shù)據(jù)進(jìn)行乘法和加法。并且在下一個周期中,每個單元格將其權(quán)重和數(shù)據(jù)轉(zhuǎn)發(fā)給下一個單元格。權(quán)重從上到下,數(shù)據(jù)從左到右。

1bf48576-c5c2-11ec-bce3-dac502259ad0.png

該項目雖然完成了相關(guān)的目的,但是只是完成了相關(guān)工作,實際使用時需要進(jìn)行一些優(yōu)化。

1c41695e-c5c2-11ec-bce3-dac502259ad0.png

super_small_toy_tpu

?

https://github.com/dldldlfma/super_small_toy_tpu

1c7098be-c5c2-11ec-bce3-dac502259ad0.png

如果說上面幾個TPU比較復(fù)雜,那么這個就可以用“精簡”來形容了。

整個代碼非常精簡,適合入門想研究TPU的人。

1c8f61cc-c5c2-11ec-bce3-dac502259ad0.png

AIC2021-TPU

?

https://github.com/charley871103/TPU

?

https://github.com/Oscarkai9139/AIC2021-TPU

?

https://github.com/hsiehong/tpu

1ca9c4b8-c5c2-11ec-bce3-dac502259ad0.png

這個項目是AIC2021-TPU,類似的項目有很多,都是理論研究的項目,和上面的項目一樣都是非常非常適合入門研究的人員,里面的理論都是極其詳細(xì)的。

1cd94e72-c5c2-11ec-bce3-dac502259ad0.png

systolic-array

?

https://github.com/Dazhuzhu-github/systolic-array

verilog實現(xiàn)TPU中的脈動陣列計算卷積的module

data為實驗數(shù)據(jù)

source為源碼

testbench 測試各個模塊用的testbench

data-preprocessing 原本是要寫將卷積操作用python預(yù)先imtocol操作的,但后來直接使用matlab生成數(shù)據(jù)進(jìn)行測試了

tpu_v2

?

https://github.com/UT-LCA/tpu_v2

1cf57534-c5c2-11ec-bce3-dac502259ad0.png

項目沒有多余的介紹,整個項目是基于Altera-DE3設(shè)計,EDA工具是Quartus II。

1d09d60a-c5c2-11ec-bce3-dac502259ad0.png

google-coral-baseboard

?

https://github.com/antmicro/google-coral-baseboard

1d28fe7c-c5c2-11ec-bce3-dac502259ad0.png

NXP i.MX8X 和 Google 的 Edge TPU ML 推理 ASIC(也可作為Coral Edge TPU 開發(fā)板的一部分)的基板的開放硬件設(shè)計文件。該板提供標(biāo)準(zhǔn) I/O 接口,并允許用戶通過統(tǒng)一的柔性扁平電纜 (FFC) 連接器與兩個兼容 MIPI CSI-2 的視頻設(shè)備連接。

1d63cbb0-c5c2-11ec-bce3-dac502259ad0.png

PCB 項目文件是在 Altium Designer 14.1 中準(zhǔn)備的。

1d76fe74-c5c2-11ec-bce3-dac502259ad0.png

該項目是一個硬件方案,谷歌Coral Edge TPU的硬件驗證方案。

neural-engine

?

https://github.com/hollance/neural-engine

大多數(shù)新的 iPhone 和 iPad 都有神經(jīng)引擎,這是一種特殊的處理器,可以讓機器學(xué)習(xí)模型變得非???,但對于這種處理器的實際工作原理,公眾知之甚少。

Apple 神經(jīng)引擎(或 ANE)是NPU的一種,代表神經(jīng)處理單元。它就像 GPU,但 NPU 不是加速圖形,而是加速卷積和矩陣乘法等神經(jīng)網(wǎng)絡(luò)操作。

ANE 并不是唯一的 NPU——除了 Apple 之外,許多公司都在開發(fā)自己的 AI 加速器芯片。除了神經(jīng)引擎,最著名的 NPU 是谷歌的 TPU(或 Tensor Processing Unit)。

這個項目并不是一個實現(xiàn)TPU的項目,但是是一個關(guān)于Apple 神經(jīng)引擎(或 ANE)介紹及相關(guān)文檔的集合的項目。

總結(jié)

今天介紹了幾個TPU的項目,因為在國內(nèi)TPU可能很多人都沒有聽說過,所以接下來我會出幾篇文章介紹一下。同時這些項目前面幾個非常完整,完全可以優(yōu)化后進(jìn)行商業(yè)推廣(注意開源協(xié)議),最后幾個項目是一些補充的知識,想要了解相關(guān)的知識的朋友可以查看一下。

最后,還是感謝各個大佬開源的項目,讓我們受益匪淺。后面有什么感興趣方面的項目,大家可以在后臺留言或者加微信留言,今天就到這,我是爆肝的碎碎思,期待下期文章與你相見。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1660

    文章

    22412

    瀏覽量

    636354
  • Verilog
    +關(guān)注

    關(guān)注

    30

    文章

    1374

    瀏覽量

    114529
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8553

    瀏覽量

    136954

原文標(biāo)題:優(yōu)秀的 Verilog/FPGA開源項目介紹(二十)- 張量處理單元(TPU)

文章出處:【微信號:Open_FPGA,微信公眾號:OpenFPGA】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    直擊英偉達(dá)腹地?谷歌TPU v7開放部署,催生OCS產(chǎn)業(yè)鏈紅利

    電子發(fā)燒友網(wǎng)報道(文/莫婷婷)在AI技術(shù)飛速發(fā)展的今天,算力已成為決定企業(yè)競爭格局的核心要素。作為全球科技巨頭,谷歌不僅在AI算法和大模型領(lǐng)域持續(xù)引領(lǐng)創(chuàng)新,更通過自主研發(fā)的張量處理單元(Tensor
    的頭像 發(fā)表于 11-27 08:53 ?9358次閱讀
    直擊英偉達(dá)腹地?谷歌<b class='flag-5'>TPU</b> v7開放部署,催生OCS產(chǎn)業(yè)鏈紅利

    什么是TPU?萬協(xié)通帶你看懂AI算力的“變形金剛”

    ”——TPU(Tensor Processing Unit)。 今天,作為國產(chǎn)可重構(gòu)TPU芯片的先行者,萬協(xié)通將帶你剝開晦澀的技術(shù)外殼,看懂這塊決定AI未來的核心硬件,以及中國芯片如何換道超車,上演一場精彩的“變形記”。 AI時代的“偏科生”——讀懂
    的頭像 發(fā)表于 01-13 13:22 ?263次閱讀
    什么是<b class='flag-5'>TPU</b>?萬協(xié)通帶你看懂AI算力的“變形金剛”

    AI芯片大單!Anthropic從博通采購100萬顆TPU v7p芯片

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)近日消息,AI企業(yè)Anthropic將直接從博通采購近100萬顆TPU v7?pIronwood AI芯片,本地部署在其控制的數(shù)據(jù)中心中。也就是說,博通將直接向
    的頭像 發(fā)表于 01-06 08:38 ?6171次閱讀

    AI硬件全景解析:CPU、GPU、NPU、TPU的差異化之路,一文看懂!?

    CPU作為“通用基石”,支撐所有設(shè)備的基礎(chǔ)運行;GPU憑借并行算力,成為AI訓(xùn)練與圖形處理的“主力”;TPU在Google生態(tài)中深耕云端大模型訓(xùn)練;NPU則讓AI從“云端”走向“身邊”(手機、手表
    的頭像 發(fā)表于 12-17 17:13 ?1749次閱讀
    AI硬件全景解析:CPU、GPU、NPU、<b class='flag-5'>TPU</b>的差異化之路,一文看懂!?

    谷歌云發(fā)布最強自研TPU,性能比前代提升4倍

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)近日,谷歌云在官方博客上正式宣布,公司成功推出第七代TPU張量處理器)“Ironwood”,該芯片預(yù)計在未來幾周內(nèi)正式上市。 ? “Ironwood”由谷歌自主
    的頭像 發(fā)表于 11-13 07:49 ?8621次閱讀
    谷歌云發(fā)布最強自研<b class='flag-5'>TPU</b>,性能比前代提升4倍

    如何將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型部署到蜂鳥e203開發(fā)板上

    輸入和輸出張量 interpreter->AllocateTensors();3. 獲取輸入和輸出張量的指針: TfLiteTensor* input_tensor
    發(fā)表于 10-22 08:04

    擁抱DeepSeek開源生態(tài)| 算能TPU接入TileLang,集結(jié)北大復(fù)旦山大頂尖團(tuán)隊!

    TPU的TileLang-TPU項目也于近日完成工程驗證。TileLang發(fā)布之初,算能聯(lián)合北京大學(xué)、復(fù)旦大學(xué)、山東大學(xué)等高校的科研團(tuán)隊,共同開展TileLang接
    的頭像 發(fā)表于 10-03 19:08 ?1418次閱讀
    擁抱DeepSeek開源生態(tài)| 算能<b class='flag-5'>TPU</b>接入TileLang,集結(jié)北大復(fù)旦山大頂尖團(tuán)隊!

    【Milk-V Duo S 開發(fā)板免費體驗】開箱和系統(tǒng)體驗

    的計算能力。專門設(shè)計的 TPU 調(diào)度引擎高效地為張量處理單元核心提供高帶寬數(shù)據(jù)流。它還為用戶提供了強大的深度學(xué)習(xí)模型編譯器和軟件 SDK 開發(fā)套件。 Caffe、Pytorch、ON
    發(fā)表于 08-12 22:04

    基于碳納米材料的TPU導(dǎo)電長絲制備與性能研究

    、金屬材料與復(fù)合材料等各領(lǐng)域的研究開發(fā)、工藝優(yōu)化與質(zhì)量監(jiān)控.基于碳納米材料的TPU導(dǎo)電長絲制備與性能研究【江南大學(xué)趙樹強】基于碳納米材料的TPU導(dǎo)電長絲制備與性能研究上海
    的頭像 發(fā)表于 07-11 10:21 ?512次閱讀
    基于碳納米材料的<b class='flag-5'>TPU</b>導(dǎo)電長絲制備與性能研究

    擺脫依賴英偉達(dá)!OpenAI首次轉(zhuǎn)向使用谷歌芯片

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)近日,據(jù)知情人士透露,OpenAI近期已開始租用谷歌的張量處理單元TPU),為旗下ChatGPT等熱門產(chǎn)品提供算力支持。這一舉措不僅標(biāo)志著OpenAI首
    的頭像 發(fā)表于 07-02 00:59 ?8335次閱讀

    【Milk-V Duo S 開發(fā)板免費體驗】開箱、介紹、系統(tǒng)更新

    地為張量處理單元核心提供高帶寬數(shù)據(jù)流。 為用戶提供了強大的深度學(xué)習(xí)模型編譯器和軟件 SDK 開發(fā)套件。 Caffe、Pytorch、ONNX、MXNet、TensorFlow(Lite)等主流深度學(xué)習(xí)
    發(fā)表于 06-28 09:18

    TPU處理器的特性和工作原理

    張量處理單元TPU,Tensor Processing Unit)是一種專門為深度學(xué)習(xí)應(yīng)用設(shè)計的硬件加速器。它的開發(fā)源于對人工智能(AI)和機器學(xué)習(xí)應(yīng)用的需求,尤其是深度學(xué)習(xí)中的神經(jīng)
    的頭像 發(fā)表于 04-22 09:41 ?4371次閱讀
    <b class='flag-5'>TPU</b><b class='flag-5'>處理</b>器的特性和工作原理

    Google推出第七代TPU芯片Ironwood

    在 Google Cloud Next 25 大會上,我們隆重推出第 7 代 Tensor Processing Unit (TPU) — Ironwood。這不僅是我們迄今為止性能最高、擴(kuò)展性最佳的定制 AI 加速器,更是第一款專為推理而設(shè)計的 TPU。
    的頭像 發(fā)表于 04-16 11:20 ?1773次閱讀
    Google推出第七代<b class='flag-5'>TPU</b>芯片Ironwood

    谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命

    谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命 Google 發(fā)布了 Ironwood,這是其第七代張量處理單元TPU
    的頭像 發(fā)表于 04-12 11:10 ?3743次閱讀
    谷歌第七代<b class='flag-5'>TPU</b> Ironwood深度解讀:AI推理時代的硬件革命

    MCU分布式模塊化自動測量單元:數(shù)據(jù)傳輸與處理能力如何?

    在現(xiàn)代工程監(jiān)測中,MCU分布式模塊化自動測量單元(MCU)以其靈活的配置和強大的數(shù)據(jù)處理能力,成為了各類安全監(jiān)測項目的理想選擇。本文將深入探討MCU的工作原理、數(shù)據(jù)傳輸方式以及其在實際應(yīng)用中的優(yōu)勢
    的頭像 發(fā)表于 03-12 14:09 ?877次閱讀
    MCU分布式模塊化自動測量<b class='flag-5'>單元</b>:數(shù)據(jù)傳輸與<b class='flag-5'>處理</b>能力如何?