91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

刷屏的Groq芯片,速度遠超英偉達GPU!成本卻遭質(zhì)疑

Carol Li ? 來源:電子發(fā)燒友 ? 作者:李彎彎 ? 2024-02-22 09:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報道(文/李彎彎)英偉達遇到勁敵了?近日,Groq芯片計算速度超過英偉達GPU的消息刷屏。Groq是一家成立于2016年的AI創(chuàng)企,該公司近日開放了自家產(chǎn)品的免費試用,相比其他AI聊天機器人,Groq閃電般的響應速度迅速引爆朋友圈,經(jīng)網(wǎng)友測試,Groq每秒生成速度接近500 tok/s,碾壓GPT-4的40 tok/s。

而這樣的速度背后,源于Groq自研了一種名為張量流處理器(TSP)的新型處理單元,Groq將其命名為語言處理單元,即LPU,它的工作原理與GPU截然不同。

Groq芯片跑大模型的速度有多快

Groq芯片跑大模型最突出的特點,便是快。有網(wǎng)友震驚地說:“它回復的速度比我眨眼還快?!痹趥鹘y(tǒng)生成AI中,等待是很平常的事,經(jīng)常是字符一個個往外蹦,回答完需要挺長時間。而有網(wǎng)友稱,在Groq近日開放的云服務體驗平臺上,你可以看到,當模型收到提示后,幾乎能夠立即生成答案。

電子郵件初創(chuàng)企業(yè)OthersideAI的首席執(zhí)行官兼聯(lián)合創(chuàng)始人馬特·舒默在演示中親自體驗了Groq的強大功能。他稱贊Groq快如閃電,能夠在不到一秒鐘的時間內(nèi)生成數(shù)百個單詞的事實性、引用性答案。更令人驚訝的是,它超過3/4的時間用于搜索信息,而生成答案的時間卻短到只有幾分之一秒。

需要說明的是,Groq并沒有研發(fā)新模型,它只是一個模型啟動器,主頁上運行的是開源模型Mixtral 8x7B-32k和Llama 270B-4k。而驅(qū)動模型的硬件便是Groq自研的一種名為張量流處理器(TSP)的新型處理單元,Groq將其命名為語言處理單元,即LPU(Language Processing Units),它的工作原理與GPU截然不同。

各種測試結(jié)果和網(wǎng)友的體驗,都顯示Groq LPU的計算速度相當快。根據(jù)2024年一月的測試結(jié)果,由Groq LPU驅(qū)動Meta Llama 2模型,推理性能遙遙領(lǐng)先,是頂級云計算供應商的18倍。有報道稱,Groq LPU搭配Meta Llama 2 70B能在7分鐘內(nèi)就能生成與莎士比亞《哈姆雷特》相同數(shù)量的單詞,比普通人的打字速度快75倍。

有網(wǎng)友測試同時用Gemini、GPT-4和Groq完成一個代碼調(diào)試問題,結(jié)果,Groq的輸出速度比Gemini快10倍,比GPT-4快18倍。

有從事人工智能開發(fā)的用戶稱贊,Groq是追求低延遲產(chǎn)品的“游戲規(guī)則改變者”。有用戶認為,Groq的LPU可能成為英偉達A100和H100芯片的“高性能硬件”的有力替代品。不過,也有AI行業(yè)的專家表示,Groq的LPU從成本上來看并不具優(yōu)勢,目前并不能代替英偉達。

Groq 開發(fā)的LPU與GPU有何不同

Groq開發(fā)的LPU到底是個怎樣的產(chǎn)品?據(jù)其官網(wǎng)介紹,LPU是一種專為AI推理所設(shè)計的芯片。驅(qū)動包括GPT等主流大模型的GPU,是一種為圖形渲染而設(shè)計的并行處理器,有數(shù)百個內(nèi)核。而LPU架構(gòu)則與GPU使用的SIMD(單指令,多數(shù)據(jù))不同,這種設(shè)計可以讓芯片更有效地利用每個時鐘周期,確保一致的延遲和吞吐量,也降低了復雜調(diào)度硬件的需求。

Groq的LPU推理引擎不是普通的處理單元;它是一個端到端系統(tǒng),專為需要大量計算和連續(xù)處理的應用(如LLM)提供最快的推理而設(shè)計。通過消除外部內(nèi)存瓶頸,LPU推理引擎的性能比傳統(tǒng)GPU高出幾個數(shù)量級。

根據(jù)與Groq關(guān)系密切的投資人k_zeroS分享,LPU的工作原理與GPU截然不同。它采用了時序指令集計算機(TemporalInstructionSetComputer)架構(gòu),這意味著它無需像使用高帶寬存儲器(HBM)的GPU那樣頻繁地從內(nèi)存中加載數(shù)據(jù)。這一特點不僅有助于避免HBM短缺的問題,還能有效降低成本。

Groq創(chuàng)始人兼首席執(zhí)行官Jonathan Ross此前在接受采訪的時候就談到,在大模型推理場景,Groq LPU芯片的速度比英偉達GPU快10倍,但價格和耗電量都僅為后者的十分之一。

Ross認為,對于在產(chǎn)品中使用人工智能的公司來說,推理成本正在成為一個問題,因為隨著使用這些產(chǎn)品的客戶數(shù)量增加,運行模型的成本也在迅速增加。與英偉達GPU相比,Groq LPU集群將為大模型推理提供更高的吞吐量、更低的延遲和更低的成本。

他強調(diào),由于技術(shù)路徑不同,Groq的LPU芯片不依賴于三星或SK海力士的HBM,也不依賴于臺積電將外部HBM焊接到芯片上的CoWoS封裝技術(shù)。它在供應方面比英偉達更充足,不會被臺積電或者SK海力士等供應商卡脖子。

可以看到,Groq LPU芯片相當于是去掉了HBM,而只是依靠SRAM來計算。雖然這樣計算速度確實相當驚艷,然而其更低成本的問題卻遭到質(zhì)疑。

有AI專家表示,Groq芯片的實際成本并不低,如人工智能專家賈揚清分析稱,因為Groq小的可憐的內(nèi)存容量(230MB),在運行Llama-270b模型時,需要305張Groq卡才足夠,而用H100則只需要8張卡。從目前的價格來看,這意味著在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。

當然也有SRAM行業(yè)的專家非??春眠@種架構(gòu)模式,他認為,賈揚清對Groq成本的估算不是很對,因為沒有考慮到Groq的per token cost明顯低于GPGPU。

可以看到,作為一種新的架構(gòu)模式,Groq LPU當前必然還面臨一些潛在問題,然而它的出現(xiàn),也讓人們看到GPU之外的可能路徑。

Groq LPU芯片未來能否肩負起運行大模型的重任,或許再等等,就能看到明確答案。事實上,在去年年底的采訪中,Ross就表示,考慮到GPU的短缺和高昂的成本,他相信Groq未來的發(fā)展?jié)摿?。他說到:“在未來12個月內(nèi),我們可以部署10萬個LPU,在24個月內(nèi),我們可以部署100萬個LPU。”

寫在最后

過去一年多時間,全球眾多科技公司都在研發(fā)大模型,今年將會是大模型落地部署的重要一年,而如眾多大模型的訓練和推理卻依賴英偉達的GPU。業(yè)界亟需除英偉達GPU之外的芯片,能夠用于大模型的部署推理,Groq的LPU芯片可以說是帶來了新的探索方向。

雖然Groq公司對自己的LPU芯片在性能和成本上都自信滿滿,然而業(yè)界對于其成本問題還是有所質(zhì)疑。如果今年LPU芯片能夠如規(guī)劃那樣進行較大規(guī)模的部署,或許就能一定程度證明LPU芯片在成本上也在眾多用戶所能接受的范圍之內(nèi)。












聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5194

    瀏覽量

    135434
  • 英偉達
    +關(guān)注

    關(guān)注

    23

    文章

    4087

    瀏覽量

    99174
  • Groq
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    204
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    豪言自家芯片英偉GPU強10倍,這家AI公司再獲融資

    的 “復仇者聯(lián)盟” 正在硅谷悄然集結(jié),他們創(chuàng)立的 MatX 公司剛剛完成 5 億美元 B 輪融資,豪言要打造性能 10 倍于英偉 GPU 的專用 AI 芯片,試圖在通用
    的頭像 發(fā)表于 03-01 06:41 ?5536次閱讀

    堪稱史上最強推理芯片英偉發(fā)布 Rubin CPX,實現(xiàn)50倍ROI

    電子發(fā)燒友網(wǎng)報道(文/梁浩斌)近日,英偉在AI infra峰會上發(fā)布了專為大規(guī)模上下文推理設(shè)計的全新GPU系列Rubin CPX,性能堪稱炸裂! ? 英偉
    的頭像 發(fā)表于 09-11 08:25 ?1.1w次閱讀
    堪稱史上最強推理<b class='flag-5'>芯片</b>!<b class='flag-5'>英偉</b><b class='flag-5'>達</b>發(fā)布 Rubin CPX,實現(xiàn)50倍ROI

    英偉Rubin GPU采用鉆石銅散熱,解決芯片散熱難題

    電子發(fā)燒友網(wǎng)綜合報道 在AI算力狂飆的時代,芯片散熱問題成為制約技術(shù)發(fā)展的關(guān)鍵瓶頸。英偉下一代Vera Rubin架構(gòu)GPU,將全面采用“鉆石銅復合散熱 + 45℃溫水直液冷”全新方
    的頭像 發(fā)表于 02-05 13:46 ?1425次閱讀

    英偉重磅出手!AI 推理存儲全面覺醒

    電子發(fā)燒友網(wǎng)報道(文/黃晶晶)近日,有消息稱,英偉將以大約200億美元收購人工智能芯片初創(chuàng)公司Groq,這將是英偉
    的頭像 發(fā)表于 12-26 08:44 ?1.1w次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達</b>重磅出手!AI 推理存儲全面覺醒

    今日看點:蘋果認證中國快充品牌美調(diào)查;英偉擬向OpenAI投資最高1000億美元

    系統(tǒng)建設(shè)并部署至少10吉瓦的人工智能(AI)數(shù)據(jù)中心,用于訓練和運行下一代模型。這一耗電量相當于800萬戶美國家庭的用電量。 英偉CEO黃仁勛曾表示,10吉瓦相當于400萬至500萬塊圖形處理器(GPU),約等于
    發(fā)表于 09-23 10:09 ?460次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰(zhàn)

    的我我們講解了這幾種芯片的應用場景,設(shè)計流程、結(jié)構(gòu)等。 CPU: 還為我們講解了一種算法:哈希表算法 GPU: 介紹了英偉H100GP
    發(fā)表于 09-12 16:07

    英偉自研HBM基礎(chǔ)裸片

    "后的下一代AI GPU "Feynman"。 ? 有分析指出,英偉此舉或是將部分GPU功能集成到基礎(chǔ)裸片中,旨在提高HBM和GPU的整體
    的頭像 發(fā)表于 08-21 08:16 ?2804次閱讀

    ?Groq LPU 如何讓萬億參數(shù)模型「飛」起來?揭秘 Kimi K2 40 倍提速背后的黑科技

    Groq 的 ?LPU(Language Processing Unit)? 打破了這一魔咒,?既快又準?。 1. 精度與速度的「魚與熊掌」:如何兼得??
    的頭像 發(fā)表于 08-07 10:01 ?973次閱讀

    aicube的n卡gpu索引該如何添加?

    請問有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經(jīng)安裝了cuda和cudnn,在全局的py里添加了torch,能夠調(diào)用gpu,當還是只能看到默認的gpu0,顯示不了gpu1
    發(fā)表于 07-25 08:18

    英偉黃仁勛:將向中國市場銷售H20芯片 中國市場至關(guān)重要

    ,英偉CEO黃仁勛在北京訪問期間發(fā)表聲明稱,將恢復在中國銷售其H20 GPU芯片,并根據(jù)美國出口限制為中國市場推出一款新的GPU。
    的頭像 發(fā)表于 07-15 14:32 ?1298次閱讀

    擺脫依賴英偉!OpenAI首次轉(zhuǎn)向使用谷歌芯片

    地使用非英偉芯片,更顯示出其正在逐步擺脫對英偉芯片的深度依賴,在算力布局上邁出了重要戰(zhàn)略調(diào)整
    的頭像 發(fā)表于 07-02 00:59 ?8332次閱讀

    英偉擬再推中國特供GPU,今年6月量產(chǎn)!

    電子發(fā)燒友網(wǎng)綜合報道 近年來,美國政府對華半導體出口管制政策不斷收緊,英偉等半導體企業(yè)面臨嚴峻挑戰(zhàn)。為保持在中國市場的競爭力,英偉推出了多款特供版
    發(fā)表于 05-27 00:03 ?4796次閱讀

    GPU 維修干貨 | 英偉 GPU H100 常見故障有哪些?

    上漲,英偉H100GPU憑借其強大的算力,成為AI訓練、高性能計算領(lǐng)域的核心硬件。然而,隨著使用場景的復雜化,H100服務器故障率也逐漸攀升,輕則影響業(yè)務進度,重
    的頭像 發(fā)表于 05-05 09:03 ?2989次閱讀
    <b class='flag-5'>GPU</b> 維修干貨 | <b class='flag-5'>英偉</b><b class='flag-5'>達</b> <b class='flag-5'>GPU</b> H100 常見故障有哪些?

    新思科技攜手英偉加速芯片設(shè)計,提升芯片電子設(shè)計自動化效率

    解決方案在英偉 GPU英偉 CUDA-X庫上所實現(xiàn)的加速 基于英偉
    發(fā)表于 03-19 17:59 ?493次閱讀