91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI大模型不再依賴英偉達(dá)GPU?蘋(píng)果揭秘自研大模型

Hobby觀察 ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:梁浩斌 ? 2024-08-05 06:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)過(guò)去幾年中爆發(fā)的AI算力需求,英偉達(dá)GPU成為了最大的贏家,無(wú)論是自動(dòng)駕駛還是AI大模型,比如特斯拉、小鵬、OpenAI、字節(jié)跳動(dòng)等廠商都在爭(zhēng)相搶購(gòu)英偉達(dá)GPU產(chǎn)品,獲得足夠的算力構(gòu)建自己的計(jì)算中心,用于訓(xùn)練不同應(yīng)用的AI模型。

AI領(lǐng)域眾星捧月也造就了英偉達(dá)市值曾突破三萬(wàn)億美元,并短暫登頂全球第一的位置。不過(guò)蘋(píng)果卻反其道而行之,在7月底蘋(píng)果公司揭露的官方論文顯示,蘋(píng)果自研大模型AFM背后,完全沒(méi)有英偉達(dá)GPU的影子。

蘋(píng)果大模型訓(xùn)練,選擇了谷歌芯片

在蘋(píng)果近期揭露的一篇技術(shù)論文中,詳細(xì)介紹了蘋(píng)果在端側(cè)和服務(wù)器側(cè)的大模型。在大模型預(yù)訓(xùn)練的階段,蘋(píng)果基礎(chǔ)模型是在AXLearn框架上進(jìn)行訓(xùn)練的,據(jù)蘋(píng)果介紹,AXLearn框架是蘋(píng)果公司在2023年發(fā)布的開(kāi)源項(xiàng)目,這個(gè)框架建立在JAX和XLA的基礎(chǔ)上,允許模型在各種硬件和云平臺(tái)上進(jìn)行高效和可擴(kuò)展性訓(xùn)練,包括TPU以及云端和本地的GPU。

蘋(píng)果采用了數(shù)據(jù)并行、張量并行、序列并行和完全分片數(shù)據(jù)并行(FSDP)的組合來(lái)沿多個(gè)維度擴(kuò)展訓(xùn)練,如數(shù)據(jù)規(guī)模、模型規(guī)模和序列長(zhǎng)度。

其中,蘋(píng)果的AFM服務(wù)器端大模型是蘋(píng)果規(guī)模最大的語(yǔ)言模型,該模型在8192個(gè)TPUv4芯片上進(jìn)行了預(yù)訓(xùn)練,這些芯片被配置成8*1024個(gè)芯片集群,通過(guò)數(shù)據(jù)中心網(wǎng)絡(luò)(DCN)連接。預(yù)訓(xùn)練有三個(gè)階段,首先使用 6.3 萬(wàn)億個(gè)Tokens開(kāi)始,接著使用 1 萬(wàn)億個(gè)Tokens繼續(xù)訓(xùn)練,最后使用 1000 億個(gè)Tokens進(jìn)行上下文長(zhǎng)度的擴(kuò)展。

而在AFM的端側(cè)模型上,蘋(píng)果對(duì)其進(jìn)行了大幅修剪,論文披露AFM端側(cè)模型是一個(gè)擁有30億參數(shù)的模型,該模型是從64億參數(shù)的服務(wù)器模型中蒸餾而來(lái),而這個(gè)服務(wù)器模型則是在完整的6.3萬(wàn)億參數(shù)量上進(jìn)行訓(xùn)練。

與服務(wù)器端模型不同的是,AFM端側(cè)模型采用的芯片是谷歌的TPUv5,論文中的信息顯示,AFM端側(cè)模型是在一個(gè)由2048個(gè)TPUv5p芯片組成的集群上進(jìn)行訓(xùn)練的。

谷歌在去年12月發(fā)布了TPUv5p,面向云端AI加速,谷歌稱之為“迄今為止最強(qiáng)大、可擴(kuò)展性最強(qiáng)和最靈活的人工智能加速器”。

TPUv5p在bfloat16精度下可以提供459 teraFLOPS(每秒可執(zhí)行459萬(wàn)億次浮點(diǎn)運(yùn)算)算力;在Int8精度下,TPU v5p可以提供918 teraOPS(每秒可執(zhí)行918萬(wàn)億次整數(shù)運(yùn)算);支持95GB的HBM內(nèi)存,帶寬高達(dá)2.76 TB/s。

相比上一代的TPU v4,TPUv5p實(shí)現(xiàn)了每秒浮點(diǎn)運(yùn)算次數(shù)提高一倍,內(nèi)存帶寬是前代的三倍,訓(xùn)練大模型速度提升2.8倍,并且性價(jià)比是前代的2.1倍。

除了蘋(píng)果之外,目前采用谷歌TPU系列芯片進(jìn)行大模型訓(xùn)練的還有谷歌自家的Gemini、PaLM,以及OpenAI前副總裁創(chuàng)立的Anthropic所推出的Claude大模型,上個(gè)月Anthropic發(fā)布的Llama 3.1 405B還被認(rèn)為是最強(qiáng)開(kāi)源大模型。

蘋(píng)果、谷歌、Anthropic的實(shí)例,證明了TPU在大模型訓(xùn)練上的能力。但相比于英偉達(dá),TPU目前在大模型領(lǐng)域的應(yīng)用依舊只是冰山一角,背后更多的大模型公司,包括OpenAI、特斯拉、字節(jié)跳動(dòng)等巨頭,主力AI數(shù)據(jù)中心依然是普遍采用英偉達(dá)GPU。

英偉達(dá)的挑戰(zhàn)者們

一直以來(lái),圍繞CUDA打造的軟件生態(tài),是英偉達(dá)在GPU領(lǐng)域最大的護(hù)城河,尤其是隨著目前AI領(lǐng)域的發(fā)展加速,市場(chǎng)火爆,英偉達(dá)GPU+CUDA的開(kāi)發(fā)生態(tài)則更加穩(wěn)固,AMD英特爾等廠商雖然在努力追趕,但目前還未能看到有威脅英偉達(dá)地位的可能。

但市場(chǎng)的火爆難免吸引更多的玩家入局,對(duì)英偉達(dá)發(fā)起挑戰(zhàn),或者說(shuō)是在AI廣闊的市場(chǎng)空間中,希望分得一杯羹。

首先是英偉達(dá)在GPU領(lǐng)域的最大對(duì)手AMD ,今年一月有研究人員在Frontier超算集群上,利用其中8%左右的GPU,訓(xùn)練出一個(gè)GPT 3.5級(jí)別規(guī)模的大模型。而Frontier超算集群是完全基于AMD硬件的,由37888個(gè)MI250X GPU和9472個(gè)Epyc 7A53 CPU組成,這次研究也突破了在AMD硬件上突破了先進(jìn)分布式訓(xùn)練模型的難點(diǎn),為AMD平臺(tái)訓(xùn)練大模型驗(yàn)證了可行性。

同時(shí),CUDA生態(tài)也在逐步擊破,今年7月英國(guó)公司Spectral Compute推出了可以為AMD GPU原生編譯CUDA源代碼的方案,大幅提高了AMD GPU對(duì)CUDA的兼容效率。

英特爾的Gaudi 3 也在發(fā)布時(shí)直接對(duì)標(biāo)英偉達(dá)H100,并宣稱在模型訓(xùn)練速度和推理速度上分別比英偉達(dá)H100提高了40%和50%。

除了芯片巨頭外,也不乏來(lái)自初創(chuàng)公司的沖擊。比如Groq推出的LPU、Cerebras推出的Wafer Scale Engine 3、Etched推出的Sohu等等。國(guó)內(nèi)方面,有走多卡集群訓(xùn)練路線的初創(chuàng)公司,比如摩爾線程在今年6月宣布與羽人科技合作成功實(shí)現(xiàn)了摩爾線程夸娥(KUAE)千卡智算集群與羽人系列模型解決方案的訓(xùn)練兼容適配,高效完成了70億參數(shù)羽人大語(yǔ)言模型YuRen-7b的訓(xùn)練測(cè)試。

摩爾線程夸娥方案基于全功能MTT S4000 GPU,該GPU采用了第三代MUSA內(nèi)核,單卡支持48GB顯存容量和768GB/s的顯存帶寬,F(xiàn)P16算力為100TFLOPS。值得一提的是,MTT S4000計(jì)算卡借助摩爾線程自研開(kāi)發(fā)工具,可以充分兼容現(xiàn)有CUDA軟件生態(tài),實(shí)現(xiàn)CUDA代碼零成本遷移到MUSA平臺(tái)。

天數(shù)智芯也與智源研究院、愛(ài)特云翔合作,提供天垓100加速卡、構(gòu)建算力集群及全程技術(shù)支持,實(shí)現(xiàn)基于自主通用GPU的大模型CodeGen(高效編碼)項(xiàng)目,通過(guò)中文描述來(lái)生成可用的C、Java、Python代碼以實(shí)現(xiàn)高效編碼。

另外值得一提的是,國(guó)內(nèi)還有一家走TPU路線的AI芯片公司——中昊芯英。該公司在2023年底推出了國(guó)內(nèi)首款量產(chǎn)TPU AI訓(xùn)練芯片“剎那”,據(jù)稱在處理大模型訓(xùn)練和推理任務(wù)時(shí)相比英偉達(dá)A100,性能提高近150%,能耗下降30%,單位算力成本僅為A100的42%。

當(dāng)然,除了芯片公司,據(jù)現(xiàn)有的信息,目前主流的云服務(wù)供應(yīng)商,比如前面提到的谷歌,還有亞馬遜、微軟、Meta、阿里巴巴、字節(jié)跳動(dòng)、百度、華為等都有自研芯片的布局,其中還包括用于AI大模型訓(xùn)練的芯片。

寫(xiě)在最后

從長(zhǎng)遠(yuǎn)來(lái)看,自研芯片是云服務(wù)供應(yīng)商有效降低算力成本的方式之一,當(dāng)AI大模型訓(xùn)練成為了云計(jì)算的重要用途時(shí),自研AI訓(xùn)練芯片自然也是云服務(wù)廠商的長(zhǎng)遠(yuǎn)之計(jì)。蘋(píng)果作為消費(fèi)電子巨頭已經(jīng)邁出了重要的一步,即擺脫對(duì)英偉達(dá)的算力依賴,并且還有大量的挑戰(zhàn)者正在蠢蠢欲動(dòng)。星星之火,可以燎原,英偉達(dá)在AI訓(xùn)練領(lǐng)域的地位,可能沒(méi)有表面看起來(lái)那么穩(wěn)固。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5194

    瀏覽量

    135461
  • 蘋(píng)果
    +關(guān)注

    關(guān)注

    61

    文章

    24600

    瀏覽量

    208374
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39793

    瀏覽量

    301430
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4087

    瀏覽量

    99192
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3650

    瀏覽量

    5185
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模型 ai coding 比較

    序 我主要用途是 ai coding,從各種渠道獲取到了很多 不同的大模型排序 最多的是 opus 4.6 > k2.5 > glm5 >
    發(fā)表于 02-19 13:43

    英偉達(dá)Rubin GPU采用鉆石銅散熱,解決芯片散熱難題

    散熱難題帶來(lái)了新的曙光。 ? 隨著AI模型、云計(jì)算的迭代提速,芯片算力與功耗同步飆升。英偉達(dá)新一代Vera Rubin GPU堪稱“算力巨
    的頭像 發(fā)表于 02-05 13:46 ?1439次閱讀

    模型實(shí)戰(zhàn)(SC171開(kāi)發(fā)套件V3)2026版

    測(cè)項(xiàng)目案例(引體向上測(cè)試) 8分53秒 https://t.elecfans.com/v/28532.html *附件:文檔:智能體測(cè)項(xiàng)目案例(引體向上測(cè)試)_V1.0.pdf 見(jiàn)文檔說(shuō)明 4 模型
    發(fā)表于 01-15 12:05

    黃仁勛:未來(lái)十年很多汽車(chē)是自動(dòng)駕駛 英偉達(dá)發(fā)布Alpamayo汽車(chē)大模型平臺(tái)

    最看好的AI落地場(chǎng)景就是自動(dòng)駕駛。在演講中黃仁勛提到,未來(lái)十年,世界上很大一部分汽車(chē)將是自動(dòng)駕駛或高度自動(dòng)駕駛的。你期待嗎? 英偉達(dá)發(fā)布Alpamayo汽車(chē)大模型平臺(tái)
    的頭像 發(fā)表于 01-06 11:45 ?1093次閱讀

    蘋(píng)果AI革命:M5芯片10核GPU、AI處理速度翻倍,Apple Glass在路上

    三款核心設(shè)備。這一場(chǎng)蘋(píng)果圍繞M5芯片AI硬件的革新,也成為蘋(píng)果邁進(jìn)AI時(shí)代以端側(cè)大模型和空間計(jì)算的又一成績(jī)。 ? ? 3nm+10核
    的頭像 發(fā)表于 10-19 01:13 ?1.1w次閱讀
    <b class='flag-5'>蘋(píng)果</b><b class='flag-5'>AI</b>革命:M5芯片10核<b class='flag-5'>GPU</b>、<b class='flag-5'>AI</b>處理速度翻倍,Apple Glass在路上

    AI模型的配置AI模型該怎么做?

    STM32可以跑AI,這個(gè)AI模型怎么搞,知識(shí)盲區(qū)
    發(fā)表于 10-14 07:14

    今日看點(diǎn):蘋(píng)果認(rèn)證中國(guó)快充品牌遭美調(diào)查;英偉達(dá)擬向OpenAI投資最高1000億美元

    系統(tǒng)建設(shè)并部署至少10吉瓦的人工智能(AI)數(shù)據(jù)中心,用于訓(xùn)練和運(yùn)行下一代模型。這一耗電量相當(dāng)于800萬(wàn)戶美國(guó)家庭的用電量。 英偉達(dá)CEO黃仁勛曾表示,10吉瓦相當(dāng)于400萬(wàn)至500萬(wàn)
    發(fā)表于 09-23 10:09 ?460次閱讀

    英偉達(dá)HBM基礎(chǔ)裸片

    電子發(fā)燒友網(wǎng)綜合報(bào)道,據(jù)臺(tái)媒消息,傳聞英偉達(dá)已開(kāi)始開(kāi)發(fā)自己的HBM基礎(chǔ)裸片,預(yù)計(jì)英偉達(dá)HB
    的頭像 發(fā)表于 08-21 08:16 ?2817次閱讀

    擺脫依賴英偉達(dá)!OpenAI首次轉(zhuǎn)向使用谷歌芯片

    地使用非英偉達(dá)芯片,更顯示出其正在逐步擺脫對(duì)英偉達(dá)芯片的深度依賴,在算力布局上邁出了重要戰(zhàn)略調(diào)整的一步。 ? OpenAI
    的頭像 發(fā)表于 07-02 00:59 ?8335次閱讀

    如何賦能醫(yī)療AI模型應(yīng)用?

    引言ChatGPT掀起熱潮以來(lái),眾多AI模型如雨后春筍般涌現(xiàn),其中包括百度科技的文心一言、科大訊飛的訊飛星火、華為的盤(pán)古AI模型、騰訊
    的頭像 發(fā)表于 05-07 09:36 ?688次閱讀
    如何賦能醫(yī)療<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>應(yīng)用?

    首創(chuàng)開(kāi)源架構(gòu),天璣AI開(kāi)發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    模型庫(kù)的限制,聯(lián)發(fā)科還首發(fā)了開(kāi)源彈性架構(gòu)。區(qū)別于過(guò)往的開(kāi)放接口,只能部署特定架構(gòu)模型,開(kāi)放彈性架構(gòu)允許開(kāi)發(fā)者直接調(diào)整平臺(tái)源代碼,無(wú)需等待芯片廠商的支持,即可完成目標(biāo)或其他
    發(fā)表于 04-13 19:52

    英偉達(dá)Cosmos-Reason1 模型深度解讀

    英偉達(dá)近期發(fā)布的 Cosmos-Reason1 模型在物理常識(shí)推理領(lǐng)域引發(fā)廣泛關(guān)注。作為專(zhuān)為物理世界交互設(shè)計(jì)的多模態(tài)大語(yǔ)言模型,它通過(guò)融合視覺(jué)感知與復(fù)雜邏輯推理,重新定義了
    的頭像 發(fā)表于 03-29 23:29 ?2996次閱讀

    英偉達(dá)、高通布局AI投資版圖,這些明星企業(yè)被收入囊中!

    電子發(fā)燒友原創(chuàng) 章鷹 今年以來(lái),AI界新秀DeepSeek帶來(lái)的大模型平權(quán)推動(dòng)AI應(yīng)用,云計(jì)算市場(chǎng)景氣度上行,推動(dòng)資本開(kāi)支增長(zhǎng)。對(duì)于DeepSeek的橫空出世,英偉
    的頭像 發(fā)表于 03-25 09:22 ?2115次閱讀

    英偉達(dá)GROOT N1 全球首個(gè)開(kāi)源人形機(jī)器人基礎(chǔ)模型

    英偉達(dá)GROOT N1 全球首個(gè)開(kāi)源人形機(jī)器人基礎(chǔ)大模型
    的頭像 發(fā)表于 03-20 11:05 ?2141次閱讀

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么處理?

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦,試了好幾個(gè)模型壓縮了也不行,ram占用過(guò)大,有無(wú)解決方案?
    發(fā)表于 03-11 07:18