電子發(fā)燒友網(wǎng)報道(文/李彎彎)2025年,全球AI芯片市場正迎來一場結(jié)構(gòu)性變革。在英偉達(dá)GPU占據(jù)主導(dǎo)地位的大格局下,ASIC(專用集成電路)憑借針對AI任務(wù)的定制化設(shè)計,成為推動算力革命的新動力引擎。數(shù)據(jù)顯示,中國AI芯片市場規(guī)模預(yù)計將從2024年的1425億元迅猛增長至2029年的1.34萬億元,其中,ASIC架構(gòu)產(chǎn)品將在國內(nèi)市場占據(jù)主導(dǎo)地位。
AI ASIC是專為人工智能算法打造的專用集成電路。其核心特征在于,通過硬件層面的深度定制,在特定場景下實現(xiàn)極致的能效比。與傳統(tǒng)通用芯片(如CPU、GPU)不同,AI ASIC從設(shè)計之初便圍繞矩陣運(yùn)算、并行處理等AI核心需求進(jìn)行架構(gòu)優(yōu)化,使硬件結(jié)構(gòu)與算法高度融合,形成了“算法-芯片”協(xié)同優(yōu)化的技術(shù)范式。
以云天勵飛的DeepEdge10為例,該芯片采用14nm Chiplet工藝,集成自主設(shè)計的神經(jīng)網(wǎng)絡(luò)處理器(NNP400T),通過D2D Chiplet技術(shù)實現(xiàn)8T - 256T的算力覆蓋,能夠支持7B至130B參數(shù)規(guī)模的大模型邊緣端推理。在智慧交通場景中,這種設(shè)計使芯片將目標(biāo)檢測延遲降低至5ms以內(nèi),功耗相較于GPU方案減少了60%,充分展現(xiàn)了AI ASIC在特定場景下的優(yōu)勢。
技術(shù)突破:ASIC的四大核心優(yōu)勢
ASIC通過去除通用芯片中的冗余功能模塊,實現(xiàn)了計算效率的巨大提升。谷歌TPU v5的實測數(shù)據(jù)表明,其能效比達(dá)到英偉達(dá)H100的1.43倍;在BERT模型推理任務(wù)中,每瓦特性能提升了3.2倍。這一優(yōu)勢得益于ASIC的三大設(shè)計原則:其一,算力密度優(yōu)化,采用3D堆疊技術(shù)提高晶體管密度;其二,電壓域精細(xì)管理,通過動態(tài)電壓頻率調(diào)整(DVFS)降低閑置功耗;其三,內(nèi)存墻突破,集成HBM3e內(nèi)存,帶寬高達(dá)1.2TB/s。
在量產(chǎn)階段,ASIC的單位算力成本展現(xiàn)出顯著優(yōu)勢。亞馬遜Trainium2的測算顯示,其訓(xùn)練成本相較于GPU方案降低了40%,推理成本下降了55%。在萬卡級集群部署中,這種成本優(yōu)勢更為突出:構(gòu)建10萬卡集群時,ASIC方案可節(jié)省初始投資約12億美元,進(jìn)一步凸顯了ASIC在成本控制方面的潛力。
架構(gòu)創(chuàng)新方面,ASIC也取得重大突破。云天勵飛提出的“算力積木”架構(gòu),通過標(biāo)準(zhǔn)化計算單元(如4TOPS的NPU核心)的靈活組合,實現(xiàn)了從8T到256T的算力彈性擴(kuò)展。該架構(gòu)支持7B、14B、130B等不同規(guī)模模型的邊緣部署。在深圳地鐵人臉識別系統(tǒng)中,它實現(xiàn)了98.7%的準(zhǔn)確率,同時保持15W的低功耗,為架構(gòu)創(chuàng)新提供了成功范例。
生態(tài)協(xié)同效應(yīng)在ASIC領(lǐng)域也日益顯著。頭部企業(yè)正在構(gòu)建“芯片-算法-應(yīng)用”的垂直生態(tài)。寒武紀(jì)推出的MLU370 - X8芯片,配套Cambricon Neuware軟件棧,提供了從模型量化到部署的全流程工具鏈,將模型轉(zhuǎn)換時間從小時級壓縮至分鐘級,有力推動了生態(tài)協(xié)同發(fā)展。
AI ASIC:應(yīng)用場景與產(chǎn)業(yè)格局
AI ASIC憑借其獨(dú)特優(yōu)勢,在多個領(lǐng)域?qū)崿F(xiàn)了廣泛應(yīng)用,應(yīng)用場景從云端到邊緣全域深度滲透,全球產(chǎn)業(yè)格局也在不斷演變。
在智慧城市基礎(chǔ)設(shè)施方面,以深圳龍崗區(qū)的智慧交通項目為例,云天勵飛的ASIC芯片為2000路攝像頭的實時分析提供了強(qiáng)大支持,日均處理10億幀圖像,將事故響應(yīng)時間從3分鐘大幅縮短至20秒。其邊緣計算架構(gòu)通過本地化處理,避免了1.2PB/天的數(shù)據(jù)上傳,年節(jié)省帶寬成本超千萬元,展現(xiàn)了在智慧城市建設(shè)中的重要作用。
工業(yè)自動化領(lǐng)域,博創(chuàng)科技PLC芯片在汽車生產(chǎn)線上的應(yīng)用表明,ASIC方案將運(yùn)動控制延遲從500μs降至80μs,滿足了0.1mm級定位精度要求。在三一重工的智能工廠中,ASIC驅(qū)動的視覺檢測系統(tǒng)實現(xiàn)了每分鐘120件的檢測速度,缺陷檢出率高達(dá)99.97%,為工業(yè)自動化升級提供了有力支撐。
消費(fèi)電子領(lǐng)域,小米14 Ultra手機(jī)搭載的ASIC影像芯片,通過定制化ISP架構(gòu)實現(xiàn)了4K 120fps視頻的實時HDR處理,功耗較前代降低了35%。在OPPO Find X8中,ASIC芯片支持的AI降噪算法將暗光拍攝噪點(diǎn)減少了62%,動態(tài)范圍提升了4檔,提升了消費(fèi)電子產(chǎn)品的性能和用戶體驗。
從產(chǎn)業(yè)格局來看,國際巨頭積極布局。博通憑借55% - 60%的市場份額領(lǐng)跑全球,其為谷歌設(shè)計的TPU系列已迭代至第七代Ironwood,采用3nm工藝,算力達(dá)到42.5 EFLOPS,較前代提升了300%。Marvell的定制計算產(chǎn)品線覆蓋AI加速、安全加密等六大領(lǐng)域,客戶包括亞馬遜、微軟等頂級云廠商,展現(xiàn)出國際巨頭在ASIC領(lǐng)域的強(qiáng)大實力。
中國企業(yè)也在迅速崛起。寒武紀(jì)的思元590芯片采用7nm工藝,集成512TOPS算力。在MLPerf基準(zhǔn)測試中,ResNet50模型推理吞吐量達(dá)到每秒3800張圖像。云天勵飛與深圳國創(chuàng)合作的具身智能機(jī)器人,搭載自研ASIC芯片,實現(xiàn)了每秒45萬億次計算的實時環(huán)境感知,彰顯了中國企業(yè)在ASIC領(lǐng)域的創(chuàng)新能力和發(fā)展?jié)摿Α?br />
生態(tài)協(xié)同創(chuàng)新方面,中國企業(yè)也在不斷推進(jìn)。芯原股份推出的“IP Power House”模式,提供了從芯片設(shè)計到量產(chǎn)的全流程服務(wù),其NPU IP已被12家客戶的26款芯片采用。在華為昇騰生態(tài)中,ASIC芯片與MindSpore框架深度適配,將模型訓(xùn)練效率提升了40%,推動了中國ASIC產(chǎn)業(yè)生態(tài)的完善。
總結(jié)
行業(yè)普遍共識認(rèn)為,未來十年AI計算將呈現(xiàn)“GPU + ASIC”的混合架構(gòu)特征。黃仁勛在斯坦福大學(xué)的演講中指出,到2035年,機(jī)器人系統(tǒng)將產(chǎn)生現(xiàn)有大模型10萬倍的數(shù)據(jù)量,這需要ASIC在邊緣端提供每秒百萬億次級的實時計算能力。吳雄昂預(yù)測,2030年ASIC與GPU將在AI芯片市場平分秋色,形成技術(shù)生態(tài)的平衡發(fā)展。
發(fā)布評論請先 登錄
如何突破AI存儲墻?深度解析ONFI 6.0高速接口與Chiplet解耦架構(gòu)
安森美多系列功率器件產(chǎn)品助力突破AI數(shù)據(jù)中心能效瓶頸
從云端集中到邊緣分布:邊緣智算如何重塑算力網(wǎng)絡(luò)布局
國產(chǎn)芯片真的 “穩(wěn)” 了?這家企業(yè)的 14nm 制程,已經(jīng)悄悄滲透到這些行業(yè)…
國產(chǎn)AI芯片真能扛住“算力內(nèi)卷”?海思昇騰的這波操作藏了多少細(xì)節(jié)?
MediaTek發(fā)布天璣座艙S1 Ultra芯片
臺積電預(yù)計對3nm漲價!軟銀豪擲54億美元收購ABB機(jī)器人部門/科技新聞點(diǎn)評
從14nm到3nm:AI ASIC算力、能效雙突破
評論