Cerebras以設(shè)計晶圓級別的芯片聞名,CS-2由世界最大芯片Cerebras WSE-2處理器提供動力(WSE-2將2.6萬億個晶體管和85萬個內(nèi)核裝在一塊餐盤大小的晶圓上)。
在 SC22 上,Cerebras 展示了我們很少看到的東西,即其 CS-2 計算平臺的核心,即引擎塊。就此而言,我們不僅僅指的是我們之前多次看到的該公司的巨型 WSE-2 芯片。相反,是圍繞著一個巨大芯片的東西讓它運(yùn)轉(zhuǎn)起來。
當(dāng)我們討論 Cerebras 產(chǎn)品時,我們要么討論兩種觀點(diǎn)中的一種。第一個是該公司銷售的 CS-2 系統(tǒng)。
我們通常討論 Cerebras 產(chǎn)品的第二種方式是根據(jù)其巨大的芯片或其 Wafer-Scale Engine-2。
盡管如此,從一個巨大的人工智能芯片到一個系統(tǒng)并不是一件容易的事。這就是在 SC22 上展示的內(nèi)容。
在展會上,該公司展示了看起來像一堆金屬的東西,上面有一些 PCB 伸出來。該公司稱其為發(fā)動機(jī)缸體。在我們之前與 Cerebras 的討論中,這是一項巨大的工程壯舉。弄清楚如何封裝、供電和冷卻這個巨大的芯片是一項關(guān)鍵的工程挑戰(zhàn)。讓代工廠制造特殊晶圓是一回事。讓晶圓開啟而不是過熱并做有用的工作是另一回事。
當(dāng)我們談?wù)摲?wù)器由于密度而不得不轉(zhuǎn)向液體冷卻時,我們談?wù)摰氖?2kW/U 服務(wù)器或者可能是帶有 8x 800W 或 8x 1kW 部件的加速器托盤。對于 WSE/WSE-2,所有的電力和冷卻都需要輸送到一個大晶圓上,這意味著即使是不同材料的熱膨脹率等因素也很重要。另一個含義是該組件上的幾乎所有部件都采用液冷方式。
我們的一些讀者可能會在底板上的配件上看到文字。這是配件上的 Koolance 標(biāo)簽,供有興趣的人使用。)
最上面一排木板非常密集。展位上的 Cerebras 代表告訴我,這些是有意義的電源,因為我們看到它們的連接器密度相對較低。
在 SC22 上展示 CS-2 發(fā)動機(jī)缸體的方式對某些人來說可能看起來很奇怪。這就是發(fā)動機(jī)缸體位于系統(tǒng)后部的方式(CS-2 是“后置發(fā)動機(jī)超級計算機(jī)”?):
這個用整塊晶圓做的芯片,性能超乎想象
Cerebras Systems 及其晶圓級硬件由于其完全非傳統(tǒng)的制造方法在業(yè)界引起了轟動。他們沒有像 AI 中的所有其他參與者一樣構(gòu)建一個專用于機(jī)器學(xué)習(xí)的大芯片,而是瞄準(zhǔn)了一個完全不同的擴(kuò)展途徑。他們奉行將整個晶圓制成單個芯片的策略。該硬件已顯示出令人驚訝的多功能性,甚至在其他高性能計算應(yīng)用程序中也取得了突破性進(jìn)展。
這是由一個簡單的觀察結(jié)果驅(qū)動的,即摩爾定律已經(jīng)顯著放緩。大幅增加晶體管數(shù)量的唯一途徑是增加每個芯片中的硅數(shù)量。Cerebras 正在開發(fā)他們的第二代產(chǎn)品 Cerebras WSE-2。該芯片的尺寸為 215mm x 215mm。


與可用的最大 GPU Nvidia A100 相比,Cerebras 取得了巨大的優(yōu)勢,尤其是在將片上 40GB 的內(nèi)存帶寬與 A100 的類似大小的 HBM 內(nèi)存進(jìn)行比較時。Cerebras 擁有令人難以置信的高結(jié)構(gòu)帶寬,遠(yuǎn)遠(yuǎn)超過 GPU 到 GPU 的互連。
Cerebras 通過在水冷機(jī)箱中提供它來馴服他們的 20KW 野獸。作為參考,Nvidia A100 的功率范圍從 250W 到 500W,具體取決于配置。在創(chuàng)建這種冷卻解決方案時必須特別小心。由于該芯片的尺寸和功耗,諸如硅和其他組件的不同熱膨脹等問題成為主要問題。

長期以來,半導(dǎo)體制造受限于裸片尺寸,一直受到掩模版的限制。掩模版限制為 33×26,這意味著這是 ASML 的光刻浸入式步進(jìn)器可以在晶片上圖案化的最大尺寸。Nvidia 最大的芯片都在 800mm^2 的低范圍內(nèi),主要是因為超越這個范圍是不可能的。
Cerebras WSE 實際上是在掩模版限制范圍內(nèi)的晶圓上的許多芯片。他們沒有沿著芯片之間的劃線將芯片切割開,而是開發(fā)了一種跨芯片線的方法。這些導(dǎo)線與實際芯片分開圖案化,并允許芯片相互連接。實際上,芯片可以擴(kuò)展到超出掩模版的限制。

以經(jīng)典方式構(gòu)建芯片時,通常會存在缺陷。因此,必須丟棄來自每個晶片的多個芯片或必須禁用芯片的元件。Nvidia 通常將這種做法用于他們的 GPU。每一代都存在禁用更大比例內(nèi)核的持續(xù)趨勢,而在當(dāng)前一代 Ampere 中,大約有 12% 的內(nèi)核被禁用。

Cerebras 通過在每個標(biāo)線子芯片(reticle sub-chip)上添加 2 行額外的核心來解決這個問題。這些芯片內(nèi)的互連是 2D 網(wǎng)格,其中每個核心在垂直和水平方向上連接。它們還為每個對角線核心提供額外的互連。這允許對有缺陷的核心進(jìn)行布線,并且軟件仍然可以識別 2D 網(wǎng)格。

在這個 2D 網(wǎng)格中,Cerebras 設(shè)定了幾個目標(biāo)。他們希望所有內(nèi)存都保留在芯片上,而不必等待片外內(nèi)存緩慢。唯一的外部連接是到主機(jī)系統(tǒng)。每個內(nèi)核都有細(xì)粒度的并行性(fine grained parallelism ),彼此之間不共享任何內(nèi)容。它們是具有 MIMD 能力的節(jié)能通用內(nèi)核,并擁有自己的本地存儲器。

主要用例是機(jī)器學(xué)習(xí)訓(xùn)練或推理。網(wǎng)絡(luò)層被映射到晶片大小的芯片區(qū)域。每個矩形塊對應(yīng)一個層,有趣的是這被稱為“Colorado”。卷積、矩陣向量和矩陣乘法是在每一層的核心上計算的。2D 網(wǎng)格處理網(wǎng)絡(luò)每一層內(nèi)和網(wǎng)絡(luò)層之間的核心間通信。
大多數(shù)通信通常在沿芯片的 X 或 Y 方向進(jìn)行,但有些通信需要跨越芯片的大部分。網(wǎng)格可以處理這個而不會變得擁擠。這允許網(wǎng)絡(luò)中的層不必是連續(xù)的或彼此直接相鄰。Cerebras 軟件堆棧放置和路由這些層,同時保持核心和結(jié)構(gòu)的高利用率。該軟件能夠在單個芯片上僅放置幾層網(wǎng)絡(luò),或者在芯片上放置整個網(wǎng)絡(luò)的多個副本,以實現(xiàn)數(shù)據(jù)并行。

Cerebras 的客戶擁有實時生產(chǎn)的晶圓級引擎。這些用于許多不同的工作負(fù)載,但最有趣的一種是 CANDLE。WSE 用于精確模擬藥物組合的藥物反應(yīng)及其對癌癥的影響。然后選擇最有希望的模擬結(jié)果進(jìn)行實驗研究。

目前在這些芯片上運(yùn)行的另一個用例是內(nèi)部限制融合。它運(yùn)行在一臺大型超級計算機(jī)上,該計算機(jī)還包含多個互連的 Cerebras WSE。這種大規(guī)模模擬的組成部分之一涉及原子和亞原子粒子之間的相互作用。該計算被一個在 Cerebras 硬件上運(yùn)行的大型預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)所取代。這是一個僅使用推理的用例。它在模擬的每個時間步中都會被喚起。數(shù)據(jù)從較大的超級計算機(jī)流式傳輸?shù)?Cerebras WSE,后者又為這些原子和亞原子交互提供輸出。
Cerebras 硬件也不僅僅用于機(jī)器學(xué)習(xí)。Joule 超級計算機(jī)在 3D 網(wǎng)格中運(yùn)行的傳統(tǒng)硬件上運(yùn)行計算流體動力學(xué)。他們以兩種不同的方式遇到了擴(kuò)展問題。由于網(wǎng)絡(luò)帶寬的限制,他們無法通過核心數(shù)量來提高性能。此外,由于緩存未命中,內(nèi)核通常會在表上留下很多性能,從而導(dǎo)致內(nèi)存不足。該內(nèi)存隨后遇到了巨大的帶寬瓶頸。


流體動力學(xué)模型的 3D 網(wǎng)格被映射到 WSE 芯片的 2D 網(wǎng)格。鄰居交換、向量 AXPY 和全局向量的點(diǎn)積,這需要局部點(diǎn)積和全局 all-reduce。由于大量的 SRAM 和每個單獨(dú)內(nèi)核的相對較高的復(fù)雜性,所有這些操作都可以輕松處理。

有大量的內(nèi)核間通信,但片上內(nèi)部網(wǎng)絡(luò)足夠強(qiáng)大,可以以低延遲處理它們。網(wǎng)絡(luò)通過沿著稱為“顏色”的虛擬通道而不是預(yù)先確定的地址發(fā)送消息來實現(xiàn)這一點(diǎn)。這種基于硬件的通信允許數(shù)據(jù)在整個芯片上每時鐘傳輸 1 跳。

Allreduce 可以非??斓赝瓿伞C總€內(nèi)核將其標(biāo)量發(fā)送到它旁邊的內(nèi)核。當(dāng)它到達(dá)那里時,標(biāo)量被加在一起并向前發(fā)送。芯片的邊緣向東/西向中心發(fā)送數(shù)據(jù)。一旦它到達(dá)中心,就會發(fā)生同樣的過程,但北/南。結(jié)果被合并,然后在核心網(wǎng)格上廣播回來。只需1微秒,就可以完成這個allreduce。作為參考,超級計算機(jī)中的典型集群從一個處理器到另一個相鄰處理器的單個 MPI 通信需要大約這么長時間。

無論引入數(shù)據(jù)的延遲如何,都可以進(jìn)行計算以實現(xiàn)全帶寬。路由器具有來自每個相鄰核心的 4 個傳入數(shù)據(jù)集。此外,內(nèi)核可以將其輸出重新路由回,這樣就不需要將其存儲在 SRAM 中。內(nèi)核可以同時運(yùn)行多個線程。有一個主線程被賦予優(yōu)先級,但是如果它在等待數(shù)據(jù),其他線程就會前進(jìn)。通過使用大量 SRAM 和多線程架構(gòu)保持?jǐn)?shù)據(jù)局部性,利用率保持極高。

對硬件進(jìn)行低級優(yōu)化的結(jié)果使計算流體動力學(xué)速度提高了 200 倍。這與同樣高度優(yōu)化的大型超級計算機(jī)集群相比。除了速度上的提升,成本,尤其是功耗,也有著巨大的優(yōu)勢。這種優(yōu)勢在某種程度上是顯而易見的,因為將超級計算機(jī)集群與單個(盡管是晶圓大?。┬酒M(jìn)行比較。

不幸的是,軟件還沒有完全符合要求。Beta SDK 將于今年晚些時候推出,用于編寫自定義內(nèi)核操作。這種語言將完全特定于 WSE 的領(lǐng)域。他們將擁有數(shù)學(xué)函數(shù)和通信庫,有望在一定程度上減輕負(fù)擔(dān)。除此之外,還有一些功能和工具會有所幫助,但這將是高技能程序員的任務(wù)。這是唯一可以實現(xiàn)這種計算規(guī)模的硬件,因此對于那些需要這種性能水平的任務(wù)來說,它可能不是進(jìn)入的巨大障礙。
Cerebras 將實時計算流體動力學(xué)作為利用 WSE 的下一個工作負(fù)載。有相當(dāng)大的希望,這將打開一個全新的用例。
我們很高興基于 7nm 的 WSE2 全面推出。看看 SDK 是否可以允許開發(fā)人員生成其他工作負(fù)載,WSE 可以帶來數(shù)量級的性能提升,這將是令人興奮的。人工智能是 Cerebras 積極進(jìn)取的領(lǐng)域,但晶圓級計算可能會改變這個行業(yè),而不僅僅是機(jī)器學(xué)習(xí)。
-
芯片
+關(guān)注
關(guān)注
463文章
54031瀏覽量
466414 -
晶圓
+關(guān)注
關(guān)注
53文章
5416瀏覽量
132337 -
人工智能
+關(guān)注
關(guān)注
1817文章
50115瀏覽量
265569 -
計算平臺
+關(guān)注
關(guān)注
0文章
96瀏覽量
9997 -
AI芯片
+關(guān)注
關(guān)注
17文章
2130瀏覽量
36798
原文標(biāo)題:Cerebras展示用整塊晶圓做的大芯片
文章出處:【微信號:TenOne_TSMC,微信公眾號:芯片半導(dǎo)體】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
瑞樂半導(dǎo)體——主要產(chǎn)品有TC Wafer晶圓測溫系統(tǒng)等#晶圓檢測 #晶圓測溫 #晶圓制造過程
瑞樂半導(dǎo)體——AVLS無線校準(zhǔn)測量晶圓系統(tǒng)發(fā)現(xiàn)制造設(shè)備微小振動和水平偏差 #晶圓制造過程 #晶圓檢測 #晶圓
晶圓洗澡新姿勢!3招讓芯片告別“水痕尷尬”!# 半導(dǎo)體# 晶圓# 清洗設(shè)備
晶圓清洗機(jī)怎么做晶圓夾持
瑞樂半導(dǎo)體——4寸5點(diǎn)TCWafer晶圓測溫系統(tǒng)#晶圓測溫 #晶圓測試 #晶圓檢測 #晶圓制造過程
瑞樂半導(dǎo)體——12寸TC Wafer晶圓測溫系統(tǒng)#晶圓測溫 #晶圓檢測 #晶圓測試 #晶圓制造
降低晶圓 TTV 的磨片加工方法
減薄對后續(xù)晶圓劃切的影響
簡單認(rèn)識晶圓減薄技術(shù)
如何計算晶圓中芯片數(shù)量
Cerebras的實力 用整塊晶圓做的大芯片
評論