91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Jim Keller究竟在做什么芯片

sakobpqhz ? 來源:半導體行業(yè)觀察 ? 2023-04-11 14:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

01為什么是 RISC-V?

由行業(yè)偶像Jim Keller掌舵的初創(chuàng)公司Tenstorrent組建了一支一流的AICPU工程師團隊,制定了涉及通用處理器人工智能加速器的宏偉計劃。

目前,該公司正在研發(fā)業(yè)界首款能夠同時處理客戶端和HPC工作負載的8寬解碼RISC-V內核,該內核將首先用于面向數(shù)據(jù)中心的128核高性能CPU。該公司還有多代處理器的路線圖,我們將在下面介紹。

我們最近與Tenstorrent的首席CPU架構師Wei-Han Lien就公司的愿景和路線圖進行了交談。Lien 擁有令人印象深刻的背景,曾在 NexGen、AMD、PA-Semi、Apple 工作過,最著名的可能是他在Apple的A6、A7(世界上第一款64位Arm SoC)和M1 CPU微架構和實施方面的工作。

公司有許多在 x86 和 Arm 設計方面擁有豐富經(jīng)驗的世界級工程師,有人可能會問為什么 Tenstorrent 決定開發(fā) RISC-V CPU,因為這種指令集架構 (ISA) 的數(shù)據(jù)中心軟件堆棧不如 x86和Arm 的全面。Tenstorrent 給我們的答案很簡單:x86 由 AMD 和 Intel 控制,而 Arm 由 Arm Holding 控制,這限制了創(chuàng)新的步伐。

“世界上主要只有兩家公司可以生產(chǎn) x86 CPU,”Wei-Han Lien 說?!坝捎?x86 許可限制,創(chuàng)新基本上由一兩家公司控制。當公司變得非常大時,它們就會變得官僚化,創(chuàng)新的步伐 [ 放緩 ]。[...] Arm 有點類似。他們聲稱他們就像一家 RISC-V 公司,但如果你看一下他們的規(guī)范,[它] 變得如此復雜。它實際上也有點由一位架構師主導。[…] Arm 有點規(guī)定所有可能的場景,甚至是架構[許可]合作伙伴?!?br />
相比之下,RISC-V發(fā)展迅速。據(jù)Tenstorrent稱,由于它是一個開源ISA,因此使用它進行創(chuàng)新更容易、更快速,尤其是在涉及新興和快速開發(fā)的 AI 解決方案時。

“我一直在為 [Tenstorrent 的] AI 解決方案尋找配套的處理器解決方案,然后我們想要 BF16 數(shù)據(jù)類型,然后我們去找Arm說,'嘿,你能支持我們嗎?'他們說‘不’,這可能需要兩年的內部討論以及與合作伙伴的討論等等,”Lien 解釋道?!暗覀兒?SiFive 談過;他們只是把它放在那里。所以,沒有限制,他們?yōu)槲覀兘ㄔ炝怂?,這是自由的?!?br />
一方面,Arm Holding 的方法確保了高質量的標準和全面的軟件堆棧,但這也意味著 ISA 創(chuàng)新的步伐變慢,這對于AI處理器等新興應用來說可能是一個問題,這些應用旨在得到快速發(fā)展。

02一個微架構,一年五個 CPU IP

由于Tenstorrent著眼于并解決整個AI應用,它不僅需要不同的片上系統(tǒng)或系統(tǒng)級封裝,還需要各種CPU微架構實現(xiàn)和系統(tǒng)級架構來實現(xiàn)不同的功率和性能目標。這正是Wei-Han Lien 的部門所致力于解決的問題。 不起眼的消費電子SoC和強大的服務器處理器幾乎沒有共同之處,但可以共享相同的ISA和微體系結構(管實現(xiàn)方式不同)。這就是Lien的團隊發(fā)揮作用的地方。Tenstorrent 表示,公司CPU團隊開發(fā)了一種無序 RISC-V 微架構,并以五種不同的方式實現(xiàn)它,以解決各種應用程序的問題。

Tenstorrent現(xiàn)在有五種不同的RISC-V CPU核心IP——具有兩寬、三寬、四寬、六寬和八寬解碼——用于其自己的處理器或許可給感興趣的各方。對于那些需要非?;镜腃PU的潛在客戶,該公司可以提供具有兩個寬度執(zhí)行的小內核,但對于那些需要更高性能的邊緣、客戶端PC和高性能計算的客戶,它有六個寬度的Alastor和八個寬Ascalo 內核。

每個帶八位解碼的亂序Ascalon ( RV64ACDHFMV) 內核都有六個ALU、兩個FPU和兩個256位向量單元,使其非常強大??紤]到現(xiàn)代x86設計使用四寬 (Zen 4) 或六寬 (Golden Cove) 解碼器,我們正在尋找一個非常強大的內核。

Wei-Han Lien 是負責蘋果“寬”CPU 微架構的設計師之一,該架構每個時鐘最多可執(zhí)行8條指令。例如,Apple的A14和M1 SoC具有八個寬的高性能 Firestorm CPU內核,在推出兩年后,它們仍然是業(yè)內最節(jié)能的設計之一。Lien 可能是業(yè)界“寬”CPU微架構方面最好的專家之一,據(jù)我們所知,他是唯一一位領導工程師團隊開發(fā)八寬RISC-V高性能CPU內核的處理器設計師。

除了各種RISC-V通用內核外,Tenstorrent還擁有為神經(jīng)網(wǎng)絡推理和訓練量身定制的專有 Tensix 內核。每個 Tensix 內核包含五個RISC內核、一個用于張量運算的數(shù)組數(shù)學單元、一個用于矢量運算的SIMD單元、1MB或 2MB的 SRAM,以及用于加速網(wǎng)絡數(shù)據(jù)包運算和壓縮/解壓縮的固定功能硬件。Tensix內核支持多種數(shù)據(jù)格式,包括BF4、BF8、INT8、FP16、BF16,甚至 FP64。

03令人印象深刻的路線圖

目前,Tenstorrent 有兩種產(chǎn)品:一種稱為Grayskull的機器學習處理器,可提供約315 INT8 TOPS的性能,可插入PCIe Gen4插槽,以及網(wǎng)絡Wormhole ML處理器,具有約 350 INT8 TOPS 的性能并使用GDDR6 內存子系統(tǒng),一個PCIe Gen4 x16接口,并具有與其他機器的400GbE連接。

這兩種設備都需要一個主機CPU,可以作為附加板使用,也可以在預構建的 Tenstorrent 服務器中使用。一臺包含32個 Wormhole ML卡的4U Nebula服務器在6kW時提供大約12 INT8 POPS的性能。

今年晚些時候,該公司計劃推出其第一個獨立的CPU+ML解決方案——Black Hole——結合了24個SiFive X280 RISC-V內核和多個第三代Tensix內核,這些內核使用兩個在機器的相反方向運行的2D環(huán)面網(wǎng)絡互連學習工作量。該設備將提供1 INT8 POPS的計算吞吐量(與其前身相比性能提升約三倍)、八個GDDR6內存通道、1200 Gb/s以太網(wǎng)連接和PCIe Gen5通道。

此外,該公司期待為雙芯片解決方案以及未來使用添加2TB/s 的die to die接口。該芯片將采用6nm級制造工藝(我們預計它是臺積電N6,但 Tenstorrent 尚未證實這一點),但在600mm2時,它將比臺積電12nm級節(jié)點生產(chǎn)的前代產(chǎn)品更小. 需要記住的一件事是,Tenstorrent 尚未開發(fā)出其 Blackhole,其最終功能集可能與公司今天披露的不同。

明年,該公司將發(fā)布其終極產(chǎn)品:名為Grendel的多小芯片解決方案,該解決方案具有自己的Ascalon通用內核,具有自己的RISC-V微架構,具有八位解碼器以及用于ML工作負載的基于 Tensix 的小芯片。

Grendel 是 Tenstorrent 將于明年發(fā)布的終極產(chǎn)品集:多chiplet 解決方案包括一個具有高性能 Ascalon 通用內核的 Aegis chiplet 和一個或多個具有用于 ML 工作負載的 Tensix 內核的 chiplet。根據(jù)業(yè)務需求(以及公司的財務能力),Tenstorrent 可以使用 3nm 級工藝技術實現(xiàn)AI chiplet,從而利用更高的晶體管密度和Tensix核心數(shù),或者它可以繼續(xù)使用 Black Hole chiplet進行AI工作負載(甚至將一些工作分配給24個 SiFive X280內核,該公司表示)。小芯片將使用上述 2TB/s 互連相互通信

Aegis小芯片具有128個通用 RISC-V八寬Ascalon內核,組織在四個32核集群中,具有集群間一致性,將使用3nm級工藝技術制造。事實上,Aegis CPU小芯片將率先使用3納米級制造工藝,這可能會使該公司在高性能CPU設計方面名列前茅。 同時,Grendel 將使用LPDDR5內存子系統(tǒng)、PCIe和以太網(wǎng)連接,因此它將提供比公司現(xiàn)有解決方案明顯更高的推理和訓練性能。說到Tensix內核,需要注意的是,雖然Tenstorrent的所有AI內核都被稱為Tensix,但這些內核實際上是在進化的。

“[Tensix]的變化是漸進的,但它們確實存在,”該公司創(chuàng)始人Ljubisa Bajic 解釋道。“[他們添加了]新的數(shù)據(jù)格式、FLOPS/SRAM 容量的變化比率、SRAM 帶寬、片上網(wǎng)絡帶寬、新的稀疏特性以及一般特性?!?br />
有趣的是,不同的Tenstorrent幻燈片提到了Black Hole和Grendel產(chǎn)品的不同內存子系統(tǒng)。這是因為該公司一直在尋找最高效的內存技術,并且因為它獲得了DRAM控制器和物理接口 (PHY) 的許可。因此,它在選擇確切的內存類型時具有一定的靈活性。事實上,Lien 表示,Tenstorrent也在為未來的產(chǎn)品開發(fā)自己的內存控制器,但對于2023~2024年的解決方案,它打算使用第三方的MC和PHY。同時,出于本考慮,目前Tenstorrent不打算使用任何奇特的內存,例如HBM。

04商業(yè)模式:銷售解決方案和許可IP

雖然 Tenstorrent 有五個不同的CPU IP(盡管基于相同的微架構),但它只有 AI/ML 產(chǎn)品在流水線中(如果不考慮完全配置的服務器)使用SiFive的 X280 或 Tenstorrent 的八寬 Ascalon CPU 內核. 因此,有理由問為什么它需要這么多的CPU內核實現(xiàn)。

對這個問題的簡短回答是,Tenstorrent 有一個獨特的商業(yè)模式,包括 IP 許可(以 RTL、硬宏,甚至 GDS 形式)、銷售小芯片、銷售附加 ML 加速卡或具有 CPU 和 ML 小芯片的 ML 解決方案,并銷售包含這些卡的完全配置的服務器。 構建自己的 SoC 的公司可以授權 Tenstorrent 開發(fā)的 RISC-V 核心,廣泛的 CPU IP 組合使公司能夠競爭需要不同級別性能和功率的解決方案。

服務器供應商可以使用 Tenstorrent 的 Grayskull 和 Wormhole 加速器卡或 Blackhole 和 Grendel ML 處理器來構建他們的機器。同時,那些不想構建硬件的實體可以購買預構建的 Tenstorrent 服務器并進行部署。

這種商業(yè)模式看起來有些爭議,因為在許多情況下,Tenstorrent 與自己的客戶競爭并將競爭。然而,歸根結底,如Nvidia 等廠商提供了基于這些主板的附加卡和預制服務器,而且戴爾或 HPE 等公司似乎并不太擔心這一點,因為它們?yōu)樘囟蛻籼峁┙鉀Q方案,而不僅僅是積木。

05總結

大約兩年前,隨著 Jim Keller 的聘用,Tenstorrent 一躍成為人們關注的焦點。在兩年內,該公司招募了一批頂尖工程師,他們正在為數(shù)據(jù)中心級 AI/ML 解決方案和系統(tǒng)開發(fā)高性能 RISC-V 內核。開發(fā)團隊的成就包括全球首個八位 RISC-V 通用 CPU 內核,以及可用于 AI 和 HPC 應用的適當系統(tǒng)硬件架構。

該公司有一個全面的路線圖,包括基于 RISC-V 的高性能 CPU 小芯片和先進的 AI 加速器小芯片,它們有望為機器學習提供功能強大的解決方案。請記住,AI 和 HPC 是有望實現(xiàn)爆炸式增長的主要大趨勢,提供 AI 加速器和高性能 CPU 內核似乎是一種非常靈活的商業(yè)模式。

AI 和 HPC 市場競爭激烈,因此當您想與老牌競爭對手(AMD、英特爾、Nvidia)和新興玩家(Cerebras、Graphcore)競爭時,必須聘請一些世界上最優(yōu)秀的工程師。與大型芯片開發(fā)商一樣,Tenstorrent 擁有自己的通用 CPU 和 AI/ML 加速器硬件,這是得天獨厚的優(yōu)勢。同時,由于該公司使用 RISC-V ISA,因此目前無法解決一些市場和工作負載,至少就 CPU 而言是這樣。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    20255

    瀏覽量

    252320
  • ARM
    ARM
    +關注

    關注

    135

    文章

    9553

    瀏覽量

    391906
  • 加速器
    +關注

    關注

    2

    文章

    839

    瀏覽量

    40106
  • RISC-V
    +關注

    關注

    48

    文章

    2886

    瀏覽量

    53024

原文標題:Jim Keller究竟在做什么芯片?

文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    教授從人類語言心理告訴你,AGI的未來究竟在哪里?

    Agi
    江蘇易安聯(lián)
    發(fā)布于 :2026年01月26日 13:58:03

    一文讀懂VCSEL芯片為何與眾不同

    VCSEL芯片是如何誕生的?是德科技帶你走進慧芯激光產(chǎn)業(yè)園一探究竟!
    的頭像 發(fā)表于 01-09 14:19 ?564次閱讀

    芯知識|廣州唯創(chuàng)電子語音芯片究竟能讓哪些家電“開口說話”?

    產(chǎn)品線,正悄然為無數(shù)設備注入“聲音靈魂”,讓它們不僅能聽懂指令,更能清晰表達。那么,這些聲音播放芯片和音頻播報IC,究竟在我們的生活中扮演著哪些具體角色呢?本文將帶您
    的頭像 發(fā)表于 12-31 09:05 ?261次閱讀
    芯知識|廣州唯創(chuàng)電子語音<b class='flag-5'>芯片</b>,<b class='flag-5'>究竟</b>能讓哪些家電“開口說話”?

    IBM如何助力AI視覺檢測技術落地制造業(yè)

    近年來,從手機屏幕的瑕疵檢測到汽車零部件的裝配把關,AI 視覺檢測技術已悄然滲透進制造業(yè)的各個環(huán)節(jié)。技術看似成熟,但當制造業(yè)企業(yè)真正想引入時,卻往往舉步維艱。難題究竟在哪?
    的頭像 發(fā)表于 12-24 11:26 ?685次閱讀

    十年測試工程師復盤:CP與FT的邊界究竟在哪?

    干了十幾年芯片測試,從最早的8寸晶圓廠到現(xiàn)在搞先進封裝測試,被問最多的問題就是:“CP和FT到底該怎么分配測試項?” 這問題看似基礎,實則每個項目都在動態(tài)調整。今天結合幾個實際項目案例,聊聊我的經(jīng)驗
    發(fā)表于 12-23 10:11

    Jim Killer掌舵,Tenstorrent CPU IP進軍高性能計算,AI令RISC-V勢在必得

    電子發(fā)燒友網(wǎng)報道(文/黃晶晶)由被譽為“硅仙人”的傳奇CPU架構師Jim Keller創(chuàng)辦的Tenstorrent公司,作為高性能RISC-V CPU與AI 計算領域的翹楚備受關注。近日
    的頭像 發(fā)表于 12-16 09:13 ?5189次閱讀
    <b class='flag-5'>Jim</b> Killer掌舵,Tenstorrent CPU IP進軍高性能計算,AI令RISC-V勢在必得

    模擬前端芯片做什么的(什么是模擬前端芯片

    模擬前端芯片,常簡稱為AFE,是位于信號處理鏈最前端的集成電路。它負責接收、調理和轉換來自傳感器或其他信號源的模擬信號,如電壓、電流、溫度、壓力等,并將其轉換為高精度的數(shù)字信號,供后續(xù)的數(shù)字
    的頭像 發(fā)表于 11-21 14:33 ?533次閱讀

    究竟什么是“工業(yè)級”?為什么會貴好幾倍?

    究竟什么是“工業(yè)級”?為什么會貴好幾倍?
    的頭像 發(fā)表于 09-15 16:23 ?2095次閱讀

    實現(xiàn)環(huán)境計算真正的瓶頸究竟在哪里

    20世紀90年代初,計算機科學家Mark Weiser提出了“泛在計算”的理念,其核心思想是讓技術融入日常生活環(huán)境中[1]。盡管智能家居組件、傳感器網(wǎng)絡和智能設備取得了進展,但環(huán)境計算這一概念依然難以實現(xiàn)。如今,我們已經(jīng)擁有了硬件基礎和連接能力。那么,真正的瓶頸究竟在哪里?
    的頭像 發(fā)表于 09-10 16:21 ?822次閱讀

    電子工程師上班都在做什么?

    行業(yè)資訊
    揚興科技
    發(fā)布于 :2025年08月22日 18:24:07

    嵌入式學習的重點和難點究竟在哪?

    。特別是計算機專業(yè)出身的同學,面對一堆硬件電路圖和芯片手冊,心里可能就一個字:懵。因此如何降低學習門檻,讓零基礎硬件小白快速入門,輕松掌握硬件工作原理與接口的使用,一直
    的頭像 發(fā)表于 07-31 15:07 ?749次閱讀
    嵌入式學習的重點和難點<b class='flag-5'>究竟在</b>哪?

    淘寶電商 API 接口 VS 其他平臺,優(yōu)勢究竟在哪?

    、亞馬遜等)相比,淘寶電商 API 究竟有哪些獨特優(yōu)勢?本文將逐步分析,幫助開發(fā)者、商家和決策者做出明智選擇。 1. 淘寶電商 API 的核心功能概述 淘寶 API 提供了一套完整的接口服務,覆蓋商品管理、訂單處理、支付集成、數(shù)據(jù)分析等核心電商環(huán)
    的頭像 發(fā)表于 07-09 15:11 ?615次閱讀
    淘寶電商 API 接口 VS 其他平臺,優(yōu)勢<b class='flag-5'>究竟在</b>哪?

    什么是STM32? STM32與ARM有什么關系? STM32能做什么?

    什么是STM32 具體用于什么方面較多?? STM32與ARM有什么關系 STM32能做什么,簡單的比如調節(jié)協(xié)議,為什么那么久的產(chǎn)品到現(xiàn)在還是主流?
    發(fā)表于 06-23 17:34

    FOC電機控制究竟該如何學?

    學習FOC電機控制究竟是學哪些內容? 電機知識 軟件知識 純分享貼,有需要可以直接下載附件獲取完整資料! (如果內容有幫助可以關注、點贊、評論支持一下哦~)
    發(fā)表于 05-09 14:09

    FPGA EDA軟件的位流驗證

    位流驗證,對于芯片研發(fā)是一個非常重要的測試手段,對于純軟件開發(fā)人員,最難理解的就是位流驗證。在FPGA芯片研發(fā)中,位流驗證是在做什么,在哪些階段需要做位流驗證,如何做?都是問題。
    的頭像 發(fā)表于 04-25 09:42 ?2422次閱讀
    FPGA EDA軟件的位流驗證