91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

從AI手機到AI PC,Arm拿什么打造AI盛宴?

晶芯觀察 ? 來源:電子發(fā)燒友 ? 作者:黃晶晶 ? 2024-06-27 17:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報道(文/黃晶晶)去年,Arm基于Armv9.2架構推出了Cortex-X4內(nèi)核,更早前還有Cortex-X3/2/1內(nèi)核。今年,Arm推出了第二代Armv9.2 CPU 集群,其中包括Cortex- X925,這一次并沒有延用單個數(shù)字,如Cortex-X5這樣的命名方式。在最近包括電子發(fā)燒友在內(nèi)參與的Arm技術媒體分享日期間,Arm技術專家表示,Cortex-X925是Cortex-X推出以來取得最高IPC同比增幅的CPU,Arm想以此來清楚呈現(xiàn)其與前代產(chǎn)品的不同。與此同時,Cortex-X925 CPU與Immortalis-G925 GPU進行命名上的統(tǒng)一,以表明這些是真正的旗艦高端 IP,也是Arm終端CSS的基石。

Arm 終端計算子系統(tǒng) (CSS) 作為最新的Arm計算平臺,首次在終端領域為Arm CPU和GPU交付物理實現(xiàn)。此舉也將使構建基于 Arm 架構的解決方案變得更加簡單,確保萬無一失。

聯(lián)發(fā)科將基于Arm Cortex- X925 CPU和 Arm Immortalis-G925 GPU推出新一代天璣9400手機SoC。同時, Arm 也在與生態(tài)系統(tǒng)合作伙伴緊密合作,計劃推出面向AI PC的處理器。前不久,Arm CEO公開表示希望Arm在5年內(nèi)拿下50%的Windows PC 市場。這一切都將基于Arm最新的CPU和GPU以及著眼于未來數(shù)年發(fā)展的CSS來實現(xiàn)。

一個平臺助力3nm芯片量產(chǎn)、端側AI:Arm終端計算子系統(tǒng)

AI時代,生產(chǎn)力應用需要高性能平臺來為高分辨率屏幕提供高刷新率;高端游戲應用已經(jīng)采用了計算復雜型技術,為用戶帶來視覺震撼的游戲體驗;創(chuàng)意工作者正在不斷開辟將手機用于專業(yè)攝影用例的無盡可能。這些用例需要強大的計算能力作為支撐,并且正在通過 AI 得到進一步增強。在終端設備上打造新一波具有突破性的端側生成式 AI 體驗,全新的計算平臺能力必不可少。Arm最新推出的終端計算子系統(tǒng)(CSS) 聚焦于實現(xiàn)平臺能力的重大飛躍,優(yōu)先考慮了四個關鍵領域:突破性能邊界以處理要求苛刻的安卓實際工作負載;針對生成式 AI 以及更廣泛的 AI/ML 和計算機視覺工作負載提高性能;持續(xù)專注于實現(xiàn)兩位數(shù)的系統(tǒng)能效提升;擴展平臺以獲得更高的性能點,滿足新一代 AI PC 設備的需求(包括筆記本電腦和平板電腦)。
wKgaomZ9N-SAVe3LAAUiqts5XnU340.png

Arm終端CSS包括第二代 Armv9.2 CPU 集群,內(nèi)含性能最強的 Arm Cortex-X — Cortex-X925 CPU 以及效率最高的 Cortex-A 核心——Cortex-A725 和更新后的 Cortex-A520 CPU,讓三納米工藝上的性能和效率達到全新水平。基于第五代 Arm GPU架構的全新GPU系列包括專為旗艦移動設備設計的 Arm Immortalis-G925,以及面向大眾行業(yè)市場移動設備的 Arm Mali-G725和Mali-G625。

新的Arm終端CSS 物理實現(xiàn)面向超過3.6GHz的運行頻率,并在先進的三納米工藝上實現(xiàn)了一流的平臺功耗、性能和面積 (PPA)。這些實現(xiàn)在多家代工廠可用,為合作伙伴提供更大的靈活性。適用于安卓系統(tǒng)的 CSS 參考軟件棧搭配固定虛擬平臺 (Fixed Virtual Platform, FVP),助力合作伙伴加速流片前的軟件開發(fā)。

wKgaomZ9N-2AEyIHAAMwmW9Wgsg061.png


此外,全新 Arm Performance Studio 提供了全方位工具環(huán)境,幫助開發(fā)者簡化開發(fā)流程,充分發(fā)揮 Arm 終端 CSS 的潛力。

Arm 終端事業(yè)部產(chǎn)品管理總監(jiān)Steve Hopper詳細解析了基于FPGA為終端CSS構建的內(nèi)部參考平臺上運行安卓軟件棧的性能表現(xiàn)。他表示,作為Arm最快的安卓平臺,終端CSS在基于 2+4+2(2個Cortex-X925 + 4個Cortex-A725 + 2個Cortex-A520)的CPU集群配置的表現(xiàn)來看,配置上包含第二個Cortex-X925是為了提高CSS 平臺上重要用例的性能,如應用啟動和 AI 性能。并且通過將 L3 緩存大小從 8MB 增加到 16MB,并在集群中所有核心之間共享,計算量大的工作負載實現(xiàn)進一步加速。

wKgaomZ9N_qAD1VDAAMKh7DB1NU972.png

相比去年基于FPGA的安卓旗艦配置實現(xiàn),2+4+2 CPU 集群將應用啟動提速約 33%。通過集群的升級,包括額外的 Cortex-X 核心,并將 L3 緩存增加到 16MB,性能提升了約10%。對于 AI 大語言模型 (LLM),測量到終端 CSS 平臺上詞元 (Token) 首次響應時間,結果顯著提升46%和42%。

wKgaomZ9OAWAMfUwAAI9Ox31G4k313.png


Arm 終端 CSS同時致力于進一步推動移動端 LLM 性能的提升,使其成為端側生成式 AI 體驗的最佳平臺。詞元首次響應時間 (TTFT) 指標用以衡量生成首個響應詞元的速度。通過終端 CSS、Cortex-X925 和 KleidiAI 技術,對于具有 3.8B 參數(shù)模型的 Phi-3 的 TTFT,實現(xiàn)46%的顯著提升;而對于具有 8B 參數(shù)的更大模型 Llama 3,TTFT 性能提高了驚人的42%。

對于 Immortalis-G925,在17 個主流 AI 網(wǎng)絡(使用 fp16 數(shù)據(jù)類型)上觀察到 AI 推理速度平均提高了 36%。Cortex-X925 CPU的推理速度與上一代 Cortex-X4 相比提升59%。通過利用一顆額外的 Cortex-X925 CPU,在 17 個主流 AI 網(wǎng)絡中 int8 和 fp16 數(shù)據(jù)類型的 AI 推理時間大幅提升了170%。

wKgaomZ9OA6AfchHAAKwlL0spIM134.png


可以說,作為一個可擴展平臺,Arm 終端 CSS 為CPU 和 GPU 上的 AI 推理工作負載帶來了顯著的性能飛躍。這是硬件進步與 Arm Compute Library 優(yōu)化相結合所產(chǎn)生的強大效果。

70%的第三方ML/AI應用運行在CPU

Arm Cortex-X系列自2020年推出以來主要聚焦于優(yōu)化提高單線程性能。Cortex-X1到X4的迭代都是如此。今年推出的Cortex-X925 CPU設計更具創(chuàng)新性。

“要實現(xiàn)優(yōu)異性能,并非只涉及單個因素,要綜合考慮每時鐘周期指令數(shù) (IPC)、頻率、編譯器、操作系統(tǒng) (OS)、封裝等多個方面。因此,我們革新設計理念,通過協(xié)同設計IP與物理解決方案,不僅實現(xiàn)量產(chǎn)就緒,而且具備領先的性能、功耗和面積 (PPA) 表現(xiàn)?!盇rm終端事業(yè)部高級產(chǎn)品經(jīng)理Manish Pandey說道。

基于以上設計理念,Arm正在改變Cortex-X CPU性能的發(fā)展軌跡。具體來看Arm Cortex-X925,它是Arm推出的迄今為止速度最快、性能最強的CPU。

通過結合前沿的微架構功能、可配置性和先進的物理解決方案,Cortex-X性能表現(xiàn)得到大幅提升。Cortex-X925的單線程性能提升36%(這有賴于對緩存大小、先進的功耗與熱管理技術,以及更新運行時Runtime選擇上的進一步投入),AI 性能提高46%。

wKgZomZ9OBqAff0VAAVNNNE3qgo548.png


在先進的3nm工藝節(jié)點上Cortex-X925實現(xiàn)3.8GHz運行頻率,使得下一代設備的 Geekbench得分提高30%以上。

Cortex-X925核心對端側AI能力的提升顯著,該核心優(yōu)化AI的響應速度、網(wǎng)頁瀏覽、圖像和視頻,以及更出色的高幀率游戲體驗等。

在大語言模型 (LLM) 上,詞元 (Token) 首次響應時間縮短約40%,同時在熱門的 AI 網(wǎng)絡中,推理速度提升高達 35%。這還只是ISO配置提升,再計入額外的緩存投入和工藝節(jié)點遷移提供的更高頻率,能讓設備實現(xiàn)更加出色的性能。

在功耗改進方面,在DVFS曲線的操作點上端,Cortex-X925在關鍵時刻達到峰值性能,這表現(xiàn)在設備響應速度顯著提升。在操作點的中段范圍內(nèi),Cortex-X925在給定的功耗范圍內(nèi)提升了性能,也就是在功耗和熱設計受限的設備中能夠?qū)崿F(xiàn)更多功能。此外,在固定的計算需求下,Cortex-X925 降低了功耗,有助于延長電池續(xù)航時間。

Cortex-A700所對應的產(chǎn)品系列已經(jīng)發(fā)展了14代,整個團隊過去曾開發(fā)Cortex-A9(大約20年前的首個亂序執(zhí)行 CPU)和 Cortex-A73(迄今出貨量最高的亂序執(zhí)行CPU)?,F(xiàn)在,這個團隊全面專注于 Cortex-A700 系列的性能效率。

今年推出的Arm Cortex-A725,在性能效率設計上主要是滿足持續(xù)的AI和游戲體驗,以及為這條產(chǎn)品線在三納米工藝上實現(xiàn)最佳的物理解決方案。Cortex-A725與去年的產(chǎn)品相比,能效提高25%。AI是高度線程化的,可以非常有效地在多核上運行更多的計算。通過提升25%的能效,可為整個核心提供余量。

wKgZomZ9OCSABTd4AAHA_L2ILXA906.png


Cortex-A520也做了更新。針對三納米工藝的實現(xiàn),對于Cortex-A520 來說同樣比較復雜。通過更新實現(xiàn)流程,并與專用集成電路 (ASIC)/芯片團隊緊密合作,以確保在保持微架構不變的情況下,Arm為合作伙伴提供最佳的三納米工藝解決方案。

wKgaomZ9OC2AJFdiAAJRoJG3Xgc563.png

依據(jù)不同的終端應用,Cortex-X925、Cortex-A725、Cortex-A520這幾個核在設計時可進行組合。DSU就起到將CPU IP高效協(xié)同的集群作用,同時DSU具有可擴展性。DSU作為一款特別的IP,它的性能指標包括緩存大小、帶寬、延遲、漏電和動態(tài)功耗。今年,DSU-120 針對多個新用例進行了重點更新,聚焦在 PPA 和功耗方面的改善。

例如,機器學習 (ML)/AAA 游戲等用例對于緩存大小和緩存吞吐量較為敏感。而 AI 智能攝像頭等用例則對緩存大小敏感度低,但對內(nèi)存延遲更為敏感。而低強度線程的工作負載則對漏電比較敏感。DSU可以通過單個實現(xiàn),達到動態(tài)應對不同用例的效果。

今年Arm在DSU中推出半切片斷電模式 (Half Slice Powerdown),還為面向 RAM 新增了Quick Nap (QNap) 模式,QNap 模式是介于RAM運作 (Functional) 模式和保留 (Retention) 模式之間,可在不影響性能的前提下有效降低漏電。

Arm 終端事業(yè)部產(chǎn)品管理總監(jiān) Steve Hopper表示,由于CPU的易訪問性,其通常是運行AI工作負載的首選目標,以安卓平臺來看,目前70%的第三方 ML/AI 應用運行在CPU上。未來,在高端設備中 CPU、GPU和NPU三者相輔相成。但對于一些較低級別的設備來說,廠商可能很難承擔NPU的費用,因此,CPU 往往是一個很好的運行此類工作負載的選擇。

GPU:游戲與AI/ML兼得

Arm Immortalis-G925是Arm目前性能最強、效率最高的GPU,也是Arm終端計算子系統(tǒng) (CSS) 的組成部分。

與Immortalis-G720相比,Arm終端CSS參考平臺中的 Immortalis-G925在各種圖形應用中的性能提高了37%;在運行AI/ML網(wǎng)絡方面,性能顯著提高了 36%。在提供與2023年參考平臺相當?shù)挠螒蛐阅軙r,Arm終端CSS中的 Immortalis-G925 能節(jié)省高達 30% 的功耗;而在對復雜對象進行光線追蹤,其性能提升高達 52%。

安謀科技 (Arm China) 市場總監(jiān)王剛分析,Immortalis-G925主要關注三個方面:實際環(huán)境中的游戲性能、AI/ML 性能,以及與生態(tài)合作伙伴的緊密協(xié)作。

在游戲性能方面,主流手游運行在采用 Immortalis-G925的Arm 終端 CSS 參考平臺時,與去年的解決方案相比,性能平均提升了46%。以米哈游的《原神》為例,Arm 終端 CSS 使其性能提高49%。由騰訊光子工作室群和 KRAFTON 公司聯(lián)合開發(fā)的《絕地求生手游》運行速度提升36%,《Roblox》更是大幅提升46%。此外,其他熱門手游的性能也提升29% 到72%。這種代際的性能飛躍令人驚嘆,對開發(fā)者和最終玩家來說具有重大意義。

前面提到許多AI運行在CPU上,但對于某些工作負載,如圖像分割或物體檢測,ML很適合在GPU上運行。Arm 持續(xù)提升GPU對 AI/ML 性能和效率的支持。

在圖像處理(如分割或分類)方面,與去年的全面計算解決方案 (TCS) 相比,采用 Immortalis-G925的Arm 終端 CSS性能顯著提升41%。在超級采樣任務中,使用神經(jīng)網(wǎng)絡放大圖像時,性能提升將近30%;在自然語言處理和語音轉(zhuǎn)文本方面,獲得50%性能提升。
wKgaomZ9ODqAZCC2AAePUVS7UTc494.png????????????

現(xiàn)代手游愈發(fā)復雜,不僅在于著色器的復雜度,場景中的幾何圖形數(shù)量也呈爆炸式增長。過度繪制是場景中模糊不清的重疊像素數(shù)量,即在最終圖像中實際不會看見的部分。Arm GPU具備多種技術以減少過度繪制,進而減少到達片段著色階段的原語數(shù)量。

此前為了有助于從 GPU 上獲得更好的性能,一些應用可能會從前向后對不透明對象進行排序,這會增加CPU負載。Immortalis-G925引入了片段預處理 (Fragment Prepass) 的新機制,使得應用無需進行任何對象或原語排序。由于無需對象排序,渲染線程周期縮短了高達 43%。此外,片段預處理還可以更高效地減少過度繪制,進而提高性能和能效,同時減少應用的 CPU負載。

Immortatis-G925還改進了光線追蹤技術。在保持視覺準確性的同時,性能提高27%。開發(fā)者也可選擇稍微降低場景處理中的透明度準確性,由此可帶來 52% 的性能提升,并且降低 57% 的內(nèi)存訪問,進而能夠大幅降低功耗。

Immortalis-G925 所支持的著色器核心數(shù)量增加50%,達到24個核心的最大配置,而上一代最多只有16個。為了實現(xiàn)這一性能目標,并確保能夠支持所有著色器核心,Tiler 和命令流前端 (Command Stream Front-end, CSF) 等頂級單元都經(jīng)過了調(diào)整和優(yōu)化,以充分發(fā)揮 GPU 的性能。
wKgZomZ9OESABTXCABCfASEMR44328.png


Immortalis-G925具備硬件光線追蹤,可配置10個以上的核心,適用于旗艦智能手機等設備。面向高端手機市場推出Mali-G725,可在6至9個核心之間擴展。此外,它還能提供與旗艦產(chǎn)品相同的API支持,同時為其他級別設備提供引人入勝的游戲體驗。而適用于智能手表和入門級移動設備的Mali-G625可在1至5個核心之間擴展,提供廣泛的性能支持。

小結:

Arm CPU內(nèi)核性能的提升從Cortex-X925這個產(chǎn)品開始進行了設計理念的改變,這將影響未來數(shù)年的內(nèi)核設計。同樣,Arm Immortalis-G925 GPU也實現(xiàn)了大幅提升。更重要的是當處理器進入3nm工藝制程時,Arm終端CSS的發(fā)布為客戶的芯片從設計到量產(chǎn)提供全方位的支持。這背后的一個巨大動力自然是AI,更確切地說是Arm要引領端側AI,這一次不僅是手機,還將有PC以及其他未來可能的智能終端。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    135

    文章

    9554

    瀏覽量

    392108
  • AI
    AI
    +關注

    關注

    91

    文章

    39866

    瀏覽量

    301520
  • AI PC
    +關注

    關注

    0

    文章

    142

    瀏覽量

    724
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    邊緣AI算力臨界點:深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價值

    是救命稻草。當系統(tǒng)無法正常啟動時,這是唯一的交互窗口。 四、軟件生態(tài)與實測:“能用”“好用” 硬件只是軀殼,軟件才是靈魂。AI Station選擇了openEuler 22.03作為首發(fā)出廠系統(tǒng)
    發(fā)表于 03-10 14:19

    使用NORDIC AI的好處

    不依賴持續(xù)聯(lián)網(wǎng),整體系統(tǒng)可靠性更高。[Edge AI 概述; Nordic Edge AI 技術頁] 覆蓋“小 MCU”“高性能 SoC”的完整產(chǎn)品線 Neuton 模型 :超
    發(fā)表于 01-31 23:16

    純4G?血版AI小智產(chǎn)品方案 #小智AI #AI方案商 #4G通話 #AI終端產(chǎn)品

    AI
    不太正經(jīng)的攻城獅
    發(fā)布于 :2025年12月21日 14:36:55

    AI模型的配置AI模型該怎么做?

    STM32可以跑AI,這個AI模型怎么搞,知識盲區(qū)
    發(fā)表于 10-14 07:14

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片AGI芯片

    AI大家都很了解了吧;AGI是什么呢? AGI:通用人工智能,可以再各個應用領域都具備AI的處理能力。 AGI可以組成能夠24小時連續(xù)工作的優(yōu)秀員工隊伍,他們擁有比人類更強的能力和領導力,能夠
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    AI被賦予了人的智能,科學家們希望在沒有人類的引導下,AI自主的提出科學假設,諾貝爾獎級別的假設哦。 AI驅(qū)動科學被認為是科學發(fā)現(xiàn)的第五個范式了,與實驗科學、理論科學、計算科學、數(shù)據(jù)驅(qū)動科學一起構成
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰(zhàn)

    當今社會,AI已經(jīng)發(fā)展很迅速了,但是你了解AI的發(fā)展歷程嗎?本章作者將為我們打開AI的發(fā)展歷程以及需求和挑戰(zhàn)的面紗。 2017年開始生成式AI
    發(fā)表于 09-12 16:07

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+可期之變:AI硬件AI濕件

    ,又分為真菌計算和基于DNA的計算。 圖4 基本的真菌計算機結構 在用化學和生物方法實現(xiàn)AI功能的過程中,要經(jīng)歷5個階段,見圖5所示。 圖5 以化學和生物方法實現(xiàn)AI功能各階段 期待AI
    發(fā)表于 09-06 19:12

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+內(nèi)容總覽

    提升AI智力 第4章 AI芯片:匯聚半導體芯片產(chǎn)業(yè)前沿技術 第5章 AI硬件AI濕件:用化學
    發(fā)表于 09-05 15:10

    AI 芯片浪潮下,職場晉升新契機?

    在科技飛速發(fā)展的當下,AI 芯片已然成為眾多行業(yè)變革的核心驅(qū)動力。互聯(lián)網(wǎng)巨頭的數(shù)據(jù)中心,到我們?nèi)粘J褂玫闹悄?b class='flag-5'>手機、智能家居設備,AI 芯片的身影無處不在,深刻改變著產(chǎn)品形態(tài)與服務模式
    發(fā)表于 08-19 08:58

    【書籍評測活動NO.64】AI芯片,過去走向未來:《AI芯片:科技探索與AGI愿景》

    計算等類別AI芯片的及時、全面而富有遠見的書?!?那么時至今日,這個世界發(fā)生了什么變化呢? 在這四年間,最重大的技術變革無疑就是大模型的橫空出世,人類的時間仿佛被裝上了加速器,ChatGPT
    發(fā)表于 07-28 13:54

    Arm 與微軟合作,為基于 Arm 架構的 PC 和移動設備應用提供超強 AI 體驗

    管理總監(jiān)RonanNaughton微軟AI框架首席軟件工程經(jīng)理GeorgeWu隨著人工智能(AI)成為當今個人電腦(PC)和移動設備使用體驗(聊天機器人
    的頭像 發(fā)表于 06-03 16:47 ?879次閱讀
    <b class='flag-5'>Arm</b> 與微軟合作,為基于 <b class='flag-5'>Arm</b> 架構的 <b class='flag-5'>PC</b> 和移動設備應用提供超強 <b class='flag-5'>AI</b> 體驗

    首創(chuàng)開源架構,天璣AI開發(fā)套件讓端側AI模型接入得心應手

    錄音人聲質(zhì)量,將vivo X200s打造成安卓首款K歌旗艦手機,并獲得臻品錄音Pro級認證,給用戶帶來一款錄音室級的K歌神器。 基于天璣AI開發(fā)套件的開源彈性架構,聯(lián)發(fā)科還與美圖合作完成美圖自研
    發(fā)表于 04-13 19:52

    Banana Pi 發(fā)布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 計算與嵌入式開發(fā)

    架構,賦能多場景應用 BPI-AI2N 采用 RZ/V2N 處理器,集成 4 核 Arm? Cortex?-A55(1.8GHz)與 Cortex?-M33(200MHz),提供強勁的計算能力,同時兼顧
    發(fā)表于 03-19 17:54

    《零基礎開發(fā)AI Agent——手把手教你用扣子做智能體》

    《零基礎開發(fā)AI Agent——手把手教你用扣子做智能體》是一本為普通人量身打造AI開發(fā)指南。它不僅深入淺出地講解了Agent的概念和發(fā)展,還通過詳細的工具介紹和實戰(zhàn)案例,幫助讀者快速掌握
    發(fā)表于 03-18 12:03