看到夏core寫(xiě)了篇夏晶晶:談一下英偉達(dá)帝國(guó)的破腚(來(lái)源:知乎),決定蹭個(gè)熱度,講點(diǎn)不一樣的看法。LLM的出現(xiàn)以及NVidia暴漲的股價(jià)和銷量確實(shí)讓很多人重新思考AI芯片的機(jī)會(huì)。夏core提到了很多個(gè)點(diǎn)都很有道理,比如關(guān)于GPU成本的分析,再比如最后戰(zhàn)略視角去看,產(chǎn)業(yè)利潤(rùn)分配的不均是最大的破綻。不過(guò)戰(zhàn)術(shù)層面的想法還是有些問(wèn)題的。
比如LPDDR和HBM卷成本,如果考慮的是$/GB,那LPDDR確實(shí)有優(yōu)勢(shì),但如果考慮的是$/GBps,HBM還是最具性價(jià)比的選擇。而LLM雖然對(duì)內(nèi)存容量有比較大的需求,但對(duì)于內(nèi)存帶寬同樣有巨大的需求。單純?nèi)萘康脑挘?a target="_blank">CPU內(nèi)存可以輕輕松松堆好幾TB,比GPU便宜多了。LLM的參數(shù)和kv緩存都是實(shí)打?qū)嵉膬?nèi)存容量占用大頭,而這些參數(shù)在每一輪forward的過(guò)程都全部要用一遍,這也就意味著你把內(nèi)存里的數(shù)據(jù)都讀出來(lái)一遍要多久(即內(nèi)存的容量和帶寬比)反而是最重要的。而擴(kuò)內(nèi)存帶寬一定需要增加DRAM bank數(shù)量從而等比擴(kuò)內(nèi)存容量,但擴(kuò)內(nèi)存容量可以把多個(gè)bank掛到一個(gè)通道上不增加內(nèi)存帶寬,所以算成本的時(shí)候關(guān)鍵要看$/GBps,這方面HBM是最具性價(jià)比的選擇。
至于夏core提到的擴(kuò)互聯(lián)帶寬,利用NVidia被美國(guó)出口管制卡帶寬的機(jī)會(huì),確實(shí)是一個(gè)好的路子,但我覺(jué)得更重要的點(diǎn)在于,在LLM的游戲規(guī)則下,內(nèi)存容量、內(nèi)存帶寬以及互聯(lián)帶寬成了最核心的競(jìng)爭(zhēng)力,而算力的重要性下降了,這才是NVidia戰(zhàn)術(shù)層面最大的破綻。你看,AMD發(fā)布MI300X可是對(duì)算力指標(biāo)提都不提,只提內(nèi)存容量、內(nèi)存帶寬以及互聯(lián)帶寬。放在之前的AI芯片發(fā)布會(huì)上是完全不可能的事情,去年的時(shí)候大家都還在拼命吹算力指標(biāo)。

Intel規(guī)劃的2025年的Falcon Shores GPU也規(guī)劃了288GB內(nèi)存容量和9.8TB/s帶寬,我們先不考慮Intel會(huì)不會(huì)繼續(xù)跳票的問(wèn)題,至少內(nèi)存容量、內(nèi)存帶寬以及互聯(lián)帶寬成了最核心的競(jìng)爭(zhēng)力這一點(diǎn),幾家半導(dǎo)體頭部大廠都是達(dá)成共識(shí)的。
那這為什么又是NVidia的破綻呢?因?yàn)閮?nèi)存容量、內(nèi)存帶寬以及互聯(lián)帶寬都是標(biāo)準(zhǔn)化的,而算力是非標(biāo)準(zhǔn)化的。算力的非標(biāo)準(zhǔn)化是NVidia在過(guò)去十年最大的護(hù)城河,因?yàn)門OPS和TFLOPS是不一樣的,SIMT算力和DSA算力也是不一樣的,甚至AMD算力和NVidia算力也是不一樣的。過(guò)去AI芯片的核心競(jìng)爭(zhēng)力在于算力,為了卷算力指標(biāo),有些廠商在TOPS和TFLOPS上玩花活,有些廠商在SIMT和DSA上玩花活,即使SIMT廠商,也需要在SIMT算力的具體實(shí)現(xiàn)上玩花活,不然難以對(duì)NVidia的算力指標(biāo)產(chǎn)生競(jìng)爭(zhēng)力。而這些花活的代價(jià)就是算力的非標(biāo)準(zhǔn)化,從而形成了CUDA深厚的護(hù)城河。
看過(guò)我之前文章的朋友都直到我在過(guò)去好多年都是在探討如何構(gòu)建一個(gè)有競(jìng)爭(zhēng)力的DSA算力范式,因?yàn)橐谒懔ι细?jìng)爭(zhēng)過(guò)NVidia,一方面要有對(duì)算力指標(biāo)的需求來(lái)覆蓋算力遷移成本,這個(gè)在過(guò)去是成立的。另一方面需要有一個(gè)和NVidia的CUDA算力相比有競(jìng)爭(zhēng)力的算力范式,而算力的顯性指標(biāo)是TFLOPS,隱性指標(biāo)是達(dá)到TFLOPS的開(kāi)發(fā)時(shí)間成本(也就是易用性),我過(guò)去很多關(guān)于SIMT算力和DSA算力在編譯器層面的探討都是圍繞解決最后一環(huán)展開(kāi)的,因?yàn)檫@是在過(guò)去的需求和市場(chǎng)條件下干老黃的唯一途徑。
但現(xiàn)在算力指標(biāo)的重要性下降,前面這種干老黃的路徑的基礎(chǔ)邏輯崩塌了,對(duì)算力指標(biāo)的需求下降了,覆蓋算力遷移成本的動(dòng)力是更不足的,但一個(gè)更有潛力的干老黃的路徑出現(xiàn)了。
算力指標(biāo)重要性的下降使得大家可以放棄在算力范式層面玩花活搞競(jìng)爭(zhēng)力,轉(zhuǎn)而去追求內(nèi)存容量、內(nèi)存帶寬以及互聯(lián)帶寬的花活,這個(gè)層面玩花活的好處是他最后的指標(biāo)是標(biāo)準(zhǔn)化的,只要你的花活真的能把這些指標(biāo)懟上去,沒(méi)有太多隱性的護(hù)城河卡著你。而算力方面則可以盡量做到標(biāo)準(zhǔn)化,照著事實(shí)標(biāo)準(zhǔn)去做就行了,哪怕指標(biāo)差一點(diǎn),但堆到幾十TFLOPS的CUDA算力和幾百TFLOPS的矩陣算力其實(shí)都是可以做到的。
這時(shí)候通過(guò)市場(chǎng)對(duì)于大內(nèi)存帶寬、大互聯(lián)帶寬的需求來(lái)覆蓋算力遷移成本,同時(shí)又通過(guò)算力標(biāo)準(zhǔn)化來(lái)降低這個(gè)遷移成本。更進(jìn)一步,現(xiàn)在大模型訓(xùn)練、推理、部署的系統(tǒng)軟件也正處于蓬勃造輪子的時(shí)期,處于大量新增代碼的積累階段,一系列全新的生態(tài)位正處于形成過(guò)程中,一個(gè)超大容量和帶寬的準(zhǔn)標(biāo)準(zhǔn)化算力是有足夠卡這些全新生態(tài)位潛力的。
此外,夏core文章最后講的戰(zhàn)略層面的破綻產(chǎn)業(yè)利潤(rùn)分配的不均也是蘊(yùn)含在這背后的。
天下財(cái)共一石,老黃獨(dú)占八斗。
這是對(duì)全天下IT產(chǎn)業(yè)的傷害,包括TSMC,一個(gè)健康的產(chǎn)業(yè),其整個(gè)環(huán)節(jié)是需要一個(gè)合理的分配比例的,你要說(shuō)Logic制造的技術(shù)含量最高,但是分成的收益卻不到1%,這種分配關(guān)系不足以長(zhǎng)期維系,tsmc的工藝演進(jìn)是需要錢的(靠的就是大家共籌,利益均分),如果全世界IT就這么多錢,英偉達(dá)你是可以通過(guò)系統(tǒng)優(yōu)勢(shì)拿走更多,但產(chǎn)業(yè)鏈中tsmc及其他各個(gè)環(huán)節(jié)就會(huì)更加艱難。三星的HBM其實(shí)同理,操了白粉的心,賣個(gè)白菜的價(jià),不值得。
在LLM重新創(chuàng)建的邊界條件下,最大的需求HBM卻賣了個(gè)白菜價(jià),只因老黃提供了事實(shí)標(biāo)準(zhǔn)的算力把這些內(nèi)存帶寬連起來(lái)就吞了九成以上的利潤(rùn),這種不健康的產(chǎn)業(yè)利潤(rùn)分配其實(shí)給廣大造反者提供了巨大的機(jī)會(huì),畢竟一個(gè)準(zhǔn)標(biāo)準(zhǔn)化的算力誰(shuí)不會(huì)造(chao)呢?
當(dāng)然了,雞血打完也還是要潑點(diǎn)冷水。首先這些道理老黃肯定比我們都有更深刻的認(rèn)識(shí),處于守勢(shì)的老黃其實(shí)有很多見(jiàn)招拆招的手段。夏core提的通過(guò)美帝的出口管制反向卡老黃的互聯(lián)帶寬,其實(shí)AMD的形態(tài)就是老黃可以破解的方法。如果老黃能在一張卡里就把大模型全部塞進(jìn)去,大互聯(lián)帶寬最主要的需求就破解了,剩下的都可以靠其他并行模式以及廣大程序員優(yōu)化出來(lái),你互聯(lián)帶寬大任你大,我一堆“超大卡”之間卡著出口管制的帶寬也能把系統(tǒng)跑滿。
老黃最大的優(yōu)勢(shì)就在于只要老黃還能滿足大家的需求,甚至只要大家有預(yù)期老黃還能在短時(shí)間內(nèi)解決大家主要的需求,遷移算力的需求勢(shì)能就難以積累到足夠高度,比如AMD雖然現(xiàn)在拿出了一個(gè)核心指標(biāo)壓NVidia一倍的大殺器,但只要大家仍然預(yù)期老黃明年也能掏出這樣一個(gè)大家伙,等等不香嗎?畢竟一年時(shí)間算力遷移都不一定搞得完的,到時(shí)候NVidia來(lái)一個(gè)差不多指標(biāo)的,可不就是遷移了個(gè)寂寞。玩弄預(yù)期方面,老黃可是老手,前有算力增長(zhǎng)的黃氏定律取代摩爾定律,老黃明年必然也會(huì)給大家塑造帶寬增長(zhǎng)的新黃氏曲線,建立大家的預(yù)期??梢哉f(shuō),干老黃不光要干老黃當(dāng)代產(chǎn)品,更要去干老黃給市場(chǎng)塑造的預(yù)期曲線。
此外,堆帶寬沒(méi)有秘密,老黃在NVLink和HBM上的布局也仍然是行業(yè)領(lǐng)先水平。
不過(guò)干老黃雖然不容易,但至少標(biāo)準(zhǔn)化的核心指標(biāo)競(jìng)爭(zhēng)終歸是把老黃和各家拉到了一個(gè)層面進(jìn)行競(jìng)爭(zhēng),相比前幾年靠DSA在非標(biāo)算力層面進(jìn)行不對(duì)稱競(jìng)爭(zhēng)相比,難度還是降低了非常多的。最后引用夏core文章結(jié)尾來(lái)收尾,與各位同僚共勉。
AI這個(gè)行業(yè),也終將,昔日王榭堂前燕 飛入尋常百姓家。這是大勢(shì)。
-
英偉達(dá)
+關(guān)注
關(guān)注
23文章
4087瀏覽量
99222 -
LPDDR
+關(guān)注
關(guān)注
0文章
46瀏覽量
6853 -
算力
+關(guān)注
關(guān)注
2文章
1533瀏覽量
16749
原文標(biāo)題:英偉達(dá)的破綻
文章出處:【微信號(hào):zuosiqiche,微信公眾號(hào):佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
從英偉達(dá)電話會(huì)看Agentic AI推理與FPGA價(jià)值
美對(duì)華芯片出口“松綁”:英偉達(dá)H200獲準(zhǔn)進(jìn)入中國(guó)市場(chǎng)#AI芯片#英偉達(dá)#H200芯片
麥格納宣布擴(kuò)大與英偉達(dá)的戰(zhàn)略合作
英偉達(dá)重磅出手!AI 推理存儲(chǔ)全面覺(jué)醒
黃仁勛:英偉達(dá)AI芯片訂單排到2026年 英偉達(dá)上季營(yíng)收加速增長(zhǎng)62%再超預(yù)期
NVIDIA新聞:英偉達(dá)10億美元入股諾基亞 英偉達(dá)推出全新量子設(shè)備
傳英偉達(dá)自研HBM基礎(chǔ)裸片
國(guó)家網(wǎng)信辦約談英偉達(dá)
英偉達(dá)的破綻
評(píng)論