91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用Chiplet解決ASIC在LLM上的成本問(wèn)題

E4Life ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:周凱揚(yáng) ? 2023-07-18 00:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))雖說(shuō)最近靠著GPT大語(yǔ)言模型的熱度,英偉達(dá)之類的主流GPU公司賺得盆滿缽滿,但要說(shuō)仗著GPU的高性能就能高枕無(wú)憂的話,也就未免有些癡人說(shuō)夢(mèng)了。未來(lái)隨著LLM的繼續(xù)發(fā)展,訓(xùn)練與推理如果要花費(fèi)同樣的硬件成本,那么即便是大廠也難以負(fù)擔(dān)。

所以不少?gòu)S商都在追求如何削減TCO(總擁有成本)的辦法,有的從網(wǎng)絡(luò)結(jié)構(gòu)出發(fā),有的從自研ASIC出發(fā)的,但收效甚微,到最后還是得花大價(jià)錢購(gòu)置更多的GPU。而來(lái)自華盛頓大學(xué)和悉尼大學(xué)的幾位研究人員,在近期鼓搗出的Chiplet Cloud架構(gòu),卻有可能顛覆這一現(xiàn)狀。

TCO居高不下的因素

對(duì)于大部分廠商來(lái)說(shuō),純粹的TCO并不是他們考慮的首要因素,他們更關(guān)注的是同一性能下如何實(shí)現(xiàn)更低的TCO。當(dāng)下,限制GPU在LLM推理性能上的主要因素之一,不是Tensor核心的利用率,而是內(nèi)存帶寬。

比如在更小的batch size和普通的推理序列長(zhǎng)度下,內(nèi)存帶寬就會(huì)限制對(duì)模型參數(shù)的讀取,比如把參數(shù)從HBM加載到片上寄存器,因?yàn)槿B接層中的GeMM(通用矩陣乘)計(jì)算強(qiáng)度不高,幾乎每次計(jì)算都需要加載新的參數(shù)。

而Chiplet Cloud為了獲得更好的TCO與性能比,選擇了片上SRAM而不是HBM的外部?jī)?nèi)存方案,將所有模型參數(shù)和中間數(shù)據(jù)(比如K和V向量等)緩存到片上內(nèi)存中去,從而實(shí)現(xiàn)了比傳統(tǒng)的DDR、HBM2e更好的單Token TCO表現(xiàn),同時(shí)也獲得了更大的內(nèi)存帶寬。

Chiplet Cloud,作為基于chiplet的ASIC AI超算架構(gòu),正是專為L(zhǎng)LM減少生成單個(gè)Token所需的TCO成本設(shè)計(jì)的。從他們給出的評(píng)估數(shù)據(jù)對(duì)比來(lái)看,與目前主流的GPU和TPU對(duì)比,只有Chiplet Cloud對(duì)于TCO/Token做了極致的優(yōu)化。比如在GPT-3上,32個(gè)Chiplet Cloud服務(wù)器相較32個(gè)DGX A100服務(wù)器的TCO成本改善了94倍,在PaLM 540B上,30個(gè)Chiplet Cloud服務(wù)器相較64個(gè)TPUv4芯片將TCO改善了15倍。
wKgZomS1FPWAOS6YAAC_p1YvQu0512.png

更靈活的Chiplet方案

為什么選擇Chiplet呢?我們先來(lái)看一個(gè)極端的堆片上內(nèi)存的例子,也就是直接選擇晶圓級(jí)的“巨芯”,比如Cerebras Systems打造的WSE-2芯片。該芯片基于7nm工藝下的一整片12英寸晶圓打造,集成了2.6萬(wàn)億個(gè)晶體管,面積達(dá)到46255mm2,片上內(nèi)存更是達(dá)到了40GB。

但這樣的巨芯設(shè)計(jì)意味著高昂的制造成本,所以Chiplet Cloud的研究人員認(rèn)為更大的SRAM應(yīng)該與相對(duì)較小的芯片對(duì)應(yīng),這樣才能減少制造成本,所以他們選擇了chiplet的設(shè)計(jì)方式。近來(lái)流行的Chiplet方案提高了制造良率,也減少了制造成本,允許在不同的系統(tǒng)層級(jí)上進(jìn)行設(shè)計(jì)的重復(fù)利用。

以臺(tái)積電7nm工藝為例,要想做到0.1/cm2的缺陷密度,一個(gè)750mm2芯片的單價(jià)是一個(gè)150mm2芯片單價(jià)的兩倍,所以Chiplet的小芯片設(shè)計(jì)成本更低。重復(fù)利用的設(shè)計(jì)也可以進(jìn)一步降低成本,加快設(shè)計(jì)周期,為ASIC芯片提供更高的靈活性。

Chiplet Cloud更適合哪些廠商

雖然論文中提到了不少Chiplet Cloud的優(yōu)點(diǎn),但這依然是一個(gè)尚未得到實(shí)際產(chǎn)品驗(yàn)證的架構(gòu),擁有驗(yàn)證實(shí)力的公司往往也只有微軟、谷歌、亞馬遜以及阿里巴巴這類具備芯片設(shè)計(jì)實(shí)力的公司。況且ASIC終究是一種特化的方案,最清楚云平臺(tái)計(jì)算負(fù)載需要哪些優(yōu)化,還得是云服務(wù)廠商自己。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    463

    文章

    54010

    瀏覽量

    466151
  • asic
    +關(guān)注

    關(guān)注

    34

    文章

    1274

    瀏覽量

    124597
  • chiplet
    +關(guān)注

    關(guān)注

    6

    文章

    495

    瀏覽量

    13604
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    346

    瀏覽量

    1332
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    擁抱Chiplet,大芯片的必經(jīng)之路

    本文轉(zhuǎn)自:半導(dǎo)體行業(yè)觀察隨著傳統(tǒng)芯片架構(gòu)功耗、散熱和空間方面逼近物理極限,一種新型架構(gòu)正在興起,有望為高性能計(jì)算(HPC)開辟一條新的發(fā)展道路。這種架構(gòu)被稱為Chiplet架構(gòu)
    的頭像 發(fā)表于 02-13 14:35 ?345次閱讀
    擁抱<b class='flag-5'>Chiplet</b>,大芯片的必經(jīng)之路

    躍昉科技受邀出席第四屆HiPi Chiplet論壇

    隨著摩爾定律放緩與AI算力需求的爆發(fā)式增長(zhǎng),傳統(tǒng)芯片設(shè)計(jì)模式正面臨研發(fā)成本高昂、能耗巨大、迭代周期長(zhǎng)的多重壓力。在此背景下,Chiplet(芯粒)技術(shù)成為推動(dòng)集成電路產(chǎn)業(yè)持續(xù)演進(jìn)的關(guān)鍵路徑。2025
    的頭像 發(fā)表于 12-28 16:36 ?706次閱讀
    躍昉科技受邀出席第四屆HiPi <b class='flag-5'>Chiplet</b>論壇

    PowerVRLLM加速:LLM性能解析

    作者:AlexPim,Imagination軟件架構(gòu)FellowImagination,我們致力于加速大語(yǔ)言模型日常設(shè)備的運(yùn)行。本系列關(guān)于大語(yǔ)言模型性能與加速的兩篇博客的首篇中
    的頭像 發(fā)表于 12-10 08:34 ?317次閱讀
    PowerVR<b class='flag-5'>上</b>的<b class='flag-5'>LLM</b>加速:<b class='flag-5'>LLM</b>性能解析

    微弱信號(hào)采集 ASIC芯片 CBM12AD1X

    ASIC芯片
    芯佰微電子
    發(fā)布于 :2025年11月28日 15:04:53

    【CIE全國(guó)RISC-V創(chuàng)新應(yīng)用大賽】+ 一種基于LLM的可通過(guò)圖像語(yǔ)音控制的元件庫(kù)管理工具

    成本下長(zhǎng)時(shí)間的維持運(yùn)營(yíng)一個(gè)良好的庫(kù)存環(huán)境。本項(xiàng)目實(shí)現(xiàn)了多模態(tài)同步,項(xiàng)目中聯(lián)合調(diào)用了CV(OCR),ASR,LLM。 主要功能構(gòu)想 ? 1.實(shí)現(xiàn)用戶將采購(gòu)單或元器件標(biāo)簽或元器件(下文稱輸入資料)放置或
    發(fā)表于 11-12 19:32

    解構(gòu)Chiplet,區(qū)分炒作與現(xiàn)實(shí)

    ,對(duì)于芯片架構(gòu)的設(shè)計(jì)需要什么、哪些技術(shù)已經(jīng)成熟可用以及哪些創(chuàng)新即將出現(xiàn),仍然存在不確定性。Chiplet開始廣泛應(yīng)用之前,了解該技術(shù)及其配套生態(tài)系統(tǒng)至關(guān)重要。隨著
    的頭像 發(fā)表于 10-23 12:19 ?404次閱讀
    解構(gòu)<b class='flag-5'>Chiplet</b>,區(qū)分炒作與現(xiàn)實(shí)

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)現(xiàn)這一目標(biāo),其構(gòu)建了多維度的核心實(shí)現(xiàn)路徑:一方面,針對(duì)需
    的頭像 發(fā)表于 10-21 11:04 ?1177次閱讀

    DeepSeek R1 MTPTensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM NVIDIA Blackwell GPU 創(chuàng)下了 DeepSeek-R1 推理性能的世界紀(jì)錄,Multi-Token Prediction (MTP) 實(shí)現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4455次閱讀
    DeepSeek R1 MTP<b class='flag-5'>在</b>TensorRT-<b class='flag-5'>LLM</b>中的實(shí)現(xiàn)與優(yōu)化

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫(kù),可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2193次閱讀

    使用 llm-agent-rag-llamaindex 筆記本時(shí)收到的 NPU 錯(cuò)誤怎么解決?

    使用 conda create -n ov-nb-demos python=3.11 創(chuàng)建運(yùn)行 llm-agent-rag-llamaindex notebook 的環(huán)境。 執(zhí)行“創(chuàng)建
    發(fā)表于 06-23 06:26

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?1883次閱讀
    使用NVIDIA Triton和TensorRT-<b class='flag-5'>LLM</b>部署TTS應(yīng)用的最佳實(shí)踐

    淺談Chiplet與先進(jìn)封裝

    隨著半導(dǎo)體行業(yè)的技術(shù)進(jìn)步,尤其是摩爾定律的放緩,芯片設(shè)計(jì)和制造商們逐漸轉(zhuǎn)向了更為靈活的解決方案,其中“Chiplet”和“先進(jìn)封裝”成為了熱門的概念。
    的頭像 發(fā)表于 04-14 11:35 ?1629次閱讀
    淺談<b class='flag-5'>Chiplet</b>與先進(jìn)封裝

    Chiplet技術(shù)消費(fèi)電子領(lǐng)域的應(yīng)用前景

    探討Chiplet技術(shù)如何為智能手機(jī)、平板電腦等消費(fèi)電子產(chǎn)品帶來(lái)更優(yōu)的性能和能效比。
    的頭像 發(fā)表于 04-09 15:48 ?1065次閱讀
    <b class='flag-5'>Chiplet</b>技術(shù)<b class='flag-5'>在</b>消費(fèi)電子領(lǐng)域的應(yīng)用前景

    詳解 LLM 推理模型的現(xiàn)狀

    領(lǐng)域的最新研究進(jìn)展,特別是自DeepSeekR1發(fā)布后興起的推理時(shí)間計(jì)算擴(kuò)展相關(guān)內(nèi)容。LLM中實(shí)施和改進(jìn)推理簡(jiǎn)單來(lái)說(shuō),基于LLM的推理模型是一種旨在通過(guò)生成中間
    的頭像 發(fā)表于 04-03 12:09 ?1617次閱讀
    詳解 <b class='flag-5'>LLM</b> 推理模型的現(xiàn)狀

    Chiplet:芯片良率與可靠性的新保障!

    Chiplet技術(shù),也被稱為小芯片或芯粒技術(shù),是一種創(chuàng)新的芯片設(shè)計(jì)理念。它將傳統(tǒng)的大型系統(tǒng)級(jí)芯片(SoC)分解成多個(gè)小型、功能化的芯片模塊(Chiplet),然后通過(guò)先進(jìn)的封裝技術(shù)將這些模塊連接在一起,形成一個(gè)完整的系統(tǒng)。這一技術(shù)的出現(xiàn),源于對(duì)摩爾定律放緩的應(yīng)對(duì)以及對(duì)芯片
    的頭像 發(fā)表于 03-12 12:47 ?2860次閱讀
    <b class='flag-5'>Chiplet</b>:芯片良率與可靠性的新保障!