91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

淺談蘋果M1新處理器

我快閉嘴 ? 來源:半導(dǎo)體行業(yè)觀察 ? 作者:半導(dǎo)體行業(yè)觀察 ? 2020-11-12 16:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

昨天,蘋果發(fā)布了他們?nèi)碌腗acBook系列產(chǎn)品。這不是一個普通的發(fā)布版本,如果說有什么不同的話,蘋果今天所做的這一舉動是15年來從未發(fā)生過的:開始了整個消費類Mac系列的CPU架構(gòu)轉(zhuǎn)型。

這個巨大的改變多虧了該公司在硬件和軟件上的垂直整合,除了蘋果公司,沒有人能夠如此迅速地引入。上一次蘋果公司在2006年進(jìn)行這樣的嘗試時,放棄了IBM的PowerPC ISA和處理器,轉(zhuǎn)而支持英特爾x86設(shè)計。如今,英特爾正在被拋棄,蘋果轉(zhuǎn)而采用基于Arm-ISA的內(nèi)部處理器和CPU微體系結(jié)構(gòu)。

新處理器稱為Apple M1,這是該公司首款針對Mac設(shè)計的SoC。它具有四個大型性能內(nèi)核,四個效率內(nèi)核和一個8-GPU內(nèi)核GPU,在5nm工藝節(jié)點上具有160億個晶體管。蘋果公司正在為這種新的處理器系列啟動新的SoC命名方案,但至少在理論上它看起來很像A14X。

今天的活動包含了許多新的官方公告,但也缺少(以典型的Apple方式)詳細(xì)信息。今天,我們將剖析新的Apple M1新聞,并基于已經(jīng)發(fā)布的Apple A14 SoC進(jìn)行微體系結(jié)構(gòu)的深入研究。

Apple M1 SoC:適用于Mac的A14X

新款A(yù)pple M1確實是Apple進(jìn)行新的重大旅程的開始。在蘋果公司的演講中,該公司并未在設(shè)計細(xì)節(jié)上透露太多,但是有一張幻燈片告訴了我們很多有關(guān)芯片的封裝和架構(gòu)的信息。

這種在有機封裝中嵌入DRAM的封裝方式對蘋果來說并不新鮮;他們從A12開始就一直在使用它。當(dāng)涉及到高端芯片時,蘋果喜歡使用這種封裝而不是通常的智能手機POP封裝(封裝上的封裝),因為這些芯片在設(shè)計時考慮到了更高的TDP。因此,將DRAM放在計算機芯片的旁邊,而不是放在其上,有助于確保這些芯片仍能得到有效冷卻。

這也意味著,我們幾乎可以肯定地看到新芯片上的128位DRAM總線,與上一代a-X芯片非常相似。

在同一張幻燈片上,蘋果似乎也使用了新M1芯片的實際裸片(die)鏡頭。它完全符合蘋果公司所描述的芯片特性,看起來就像一個真正的裸片照片。這可能是我做過的最快的裸片注釋了:

我們可以看到M1的四個Firestorm高性能CPU核心在左側(cè)。注意大量的緩存——12MB緩存是這次事件的一個令人驚訝的發(fā)現(xiàn),因為A14仍然只有8MB的二級緩存。新的緩存看起來被分成了3個更大的塊,考慮到蘋果的新配置從8MB過渡到12MB,這是合理的,畢竟它現(xiàn)在被4核使用而不是2核。

同時,在SoC中心附近找到了4個Icestorm效率核心,在上面,我們可以找到SoC的系統(tǒng)級緩存,該緩存在所有IP塊之間共享。

最后,8核的GPU占據(jù)了大量的die space,并且位于這個die shot的上半部。

M1最有趣的地方是它與IntelAMD其他CPU設(shè)計的比較。上述所有模塊仍然只覆蓋了整個裸片的一部分,并帶有大量的輔助IP。蘋果提到M1是一個真正的SoC,包括之前Mac筆記本電腦內(nèi)部的幾個分立芯片的功能,比如I/O控制器和蘋果的SSD和安全控制器。

蘋果聲稱它是全球最快的CPU內(nèi)核。這將是今天文章的中心內(nèi)容,因為我們將深入研究Firestorm核心的微架構(gòu),并查看非常相似的Apple A14 SoC的性能數(shù)據(jù)。由于它的附加緩存,我們預(yù)計M1中使用的Firestorm內(nèi)核比我們今天將要用A14進(jìn)行分析的速度還要快,因此蘋果聲稱擁有世界上最快的CPU核心似乎極為合理。

整個SoC采用了160億個晶體管,比最新款iphone內(nèi)置的A14多35%。如果蘋果能夠保持兩個芯片之間晶體管的密度相似,我們應(yīng)該可以期待一個大約120mm的晶體管尺寸。這將比蘋果MacBook上一代的英特爾芯片要小得多。

向Arm進(jìn)軍

事實上,蘋果甚至可以如此無縫地完成一個重大的架構(gòu)轉(zhuǎn)換,只是一個小小的奇跡,畢竟蘋果在實現(xiàn)這一點上有著相當(dāng)豐富的經(jīng)驗。畢竟,這并不是蘋果第一次為他們的Mac電腦切換CPU架構(gòu)。

在21世紀(jì)中期左右,這家長期經(jīng)營的PowerPC公司走到了一個十字路口,當(dāng)時負(fù)責(zé)PowerPC開發(fā)的Apple-IBM-Motorola(AIM)聯(lián)盟越來越難以進(jìn)一步開發(fā)芯片。IBM的PowerPC970(G5)芯片在臺式機上有著可觀的性能指標(biāo),但它的功耗卻相當(dāng)可觀。這使得該芯片無法用于日益增長的筆記本電腦領(lǐng)域,蘋果仍在使用摩托羅拉的PowerPC 7400系列(G4)芯片,雖然該芯片的功耗確實更好,但其性能無法與英特爾的核心系列處理器相媲美。

因此,蘋果打出了一張他們保留的牌:Marklar項目。利用Mac OS X及其底層Darwin內(nèi)核的靈活性(與其他Unix一樣,達(dá)爾文內(nèi)核設(shè)計為可移植),蘋果一直在維護(hù)Mac OS X的x86版本。盡管最初主要被認(rèn)為是一種良好編碼實踐的練習(xí),但要確保蘋果編寫的操作系統(tǒng)代碼沒有不必要的約束PowerPC及其big-endian內(nèi)存模型——Marklar成為蘋果從停滯不前的PowerPC生態(tài)系統(tǒng)中退出的策略。該公司將改用x86處理器,尤其是英特爾的x86處理器,顛覆其軟件生態(tài)系統(tǒng),同時也為更好的性能和新的客戶機會敞開大門。

從所有指標(biāo)來看,切換到x86都是Apple的一大勝利。英特爾的處理器提供的每瓦性能優(yōu)于蘋果留下的PowerPC處理器,尤其是英特爾在2006年底推出Core 2(Conroe)系列處理器之后,英特爾就牢固地確立了自己在PC處理器領(lǐng)域的主導(dǎo)地位。最終,這奠定了蘋果在未來幾年的發(fā)展軌跡,使他們成為擁有筆記本超本(MacBook Air)和令人難以置信的MacBook Pro的筆記本電腦公司。同樣,x86具有Windows兼容性,引入了直接啟動Windows的功能,或者可以在開銷非常小的虛擬機中運行它。

然而,這種轉(zhuǎn)變的代價來自軟件方面。開發(fā)人員需要開始使用蘋果最新的工具鏈來生成可以在PPC和x86 mac上運行的通用二進(jìn)制文件,而且并不是所有蘋果以前的api都會跳到x86上。當(dāng)然,開發(fā)商也做出了飛躍,但這是一個沒有真正先例的轉(zhuǎn)型。

至少在某種程度上,縮小了差距的是Rosetta,這是Apple用于x86的PowerPC轉(zhuǎn)換層。Rosetta允許大多數(shù)PPC Mac OS X應(yīng)用程序在x86 Mac上運行,盡管性能有些過失(x86上的PPC并不是最簡單的事情),但是Intel CPU的更高性能有助于攜帶東西適用于大多數(shù)非密集型應(yīng)用。最終,Rosetta對蘋果來說只是一個創(chuàng)可貼,而蘋果很快就撕毀了它;在2011年Mac OS X 10.7 (Lion)面世時,蘋果已經(jīng)放棄了Rosetta。因此,即使有了Rosetta,蘋果公司也向開發(fā)者明確表示,如果他們想繼續(xù)銷售并讓用戶滿意,他們希望他們?yōu)閤86更新他們的應(yīng)用程序。

最終,PowerPC向x86的轉(zhuǎn)變?yōu)楝F(xiàn)代、敏捷的蘋果定下了基調(diào)。從那時起,蘋果就創(chuàng)造了一整套快速發(fā)展的理念,并在他們認(rèn)為合適的情況下改變事物,只在向后兼容性方面做了有限的考慮。這給了用戶和開發(fā)者很少的選擇,只能享受這段旅程并跟上蘋果的發(fā)展趨勢。但它也給了蘋果提早推出新技術(shù)的能力,如果有必要的話,還可以打破舊的應(yīng)用程序,這樣新功能就不會因為向后兼容的問題而受阻。

所有這些都是以前發(fā)生的,并且所有這些都會在下周蘋果發(fā)布其首批基于Apple M1的Mac時再次發(fā)生。通用二進(jìn)制文件又回來了,Rosetta又回來了,蘋果公司敦促開發(fā)人員在Arm上啟動并運行他們的應(yīng)用程序已全面展開。從PPC到x86的過渡為Apple進(jìn)行了ISA更改創(chuàng)建了模板,在成功過渡之后,隨著Apple成為自己的芯片供應(yīng)商,他們將在接下來的幾年中再次進(jìn)行此操作。

在接下來的頁面中,我們將研究A14的Firestorm內(nèi)核,它也將在M1中使用,也會在iPhone芯片上做一些廣泛的基準(zhǔn)測試,設(shè)定M1的最低標(biāo)準(zhǔn):

蘋果龐大的CPU微體系結(jié)構(gòu)

那么蘋果打算如何在這個市場上與AMD和Intel競爭呢?過去幾年來一直在關(guān)注蘋果在硅技術(shù)方面的努力的讀者一定不會驚訝地看到蘋果在活動中宣稱的性能。

秘密之處在于蘋果公司內(nèi)部的CPU微體系結(jié)構(gòu)。蘋果在定制CPU微體系結(jié)構(gòu)方面的漫長旅程始于2012年在iPhone 5中發(fā)布的Apple A6。即使在那時,憑借其第一代“ Swift”設(shè)計,與移動競爭對手相比,該公司的性能數(shù)據(jù)仍然令人印象深刻。

然而,真正在業(yè)界引起轟動的是蘋果隨后在2013年的Apple A7 SoC和iPhone 5S中發(fā)布的Cyclone CPU微體系架構(gòu)。蘋果早期采用的64位Armv8震驚了所有人,因為該公司是業(yè)界首個實施新指令集架構(gòu)的公司,但他們甚至比Arm自己的CPU團(tuán)隊早了一年多,因為Cortex-A57 (Arm自己的64位微架構(gòu)設(shè)計)要到2014年底才問世。

蘋果公司將其“ Cyclone”設(shè)計稱為“桌面級架構(gòu)”,事后看來,這可能對公司的發(fā)展方向有一個明顯的指示。在接下來的幾代中,蘋果已經(jīng)以驚人的速度發(fā)展了他們定制的CPU微架構(gòu),每一代都取得了巨大的性能提升,這些我們已經(jīng)在過去的幾年里廣泛報道過。

今年的A14芯片包括了蘋果64位微體系結(jié)構(gòu)家族中的第8代芯片,這是從A7和Cyclone設(shè)計開始的。這些年來,蘋果的設(shè)計節(jié)奏似乎已經(jīng)穩(wěn)定下來,圍繞著主要的雙代微架構(gòu)更新,從A7芯片組開始,A9、A11、A13都大幅增加了設(shè)計的復(fù)雜性和微架構(gòu)的寬度和深度。

考慮到蘋果沒有透露任何細(xì)節(jié),蘋果的CPU在很大程度上仍然是一個黑匣子設(shè)計,而且關(guān)于此事的唯一公開資源可以追溯到A7旋風(fēng)時代的LLVM補丁,這與今天的設(shè)計已經(jīng)不再相關(guān)。雖然我們沒有官方的手段和信息來說明蘋果的CPU是如何工作的,但這并不意味著我們無法弄清楚設(shè)計的某些方面。然而,通過我們自己的內(nèi)部測試以及第三方微基準(zhǔn)測試(這是@Veedrac的微體系結(jié)構(gòu)測試套件的一項特殊學(xué)分),我們可以公布蘋果設(shè)計的一些細(xì)節(jié)。以下披露是基于測試iPhone 12 Pro中最新的Apple A14 SoC的行為得出的:

蘋果的Firestorm CPU核心:更大更大

蘋果最新一代A14內(nèi)部的大核心CPU設(shè)計代號為“Firestorm”,延續(xù)了去年蘋果A13內(nèi)部的“Lightning”微架構(gòu)。今天討論的核心是新的Firestorm核心和它多年來不斷改進(jìn)的血統(tǒng),這也是蘋果如何從英特爾x86設(shè)計大幅跳躍到他們自己內(nèi)部的SoC的關(guān)鍵部分。

蘋果最新大核心設(shè)計的估計功能布局–這里表示的是我盡最大努力確定新設(shè)計的功能,但是仍然不能詳盡地深入研究蘋果設(shè)計必須提供的所有內(nèi)容–因此,可能會出現(xiàn)一些錯誤。

與業(yè)內(nèi)其他設(shè)計相比,真正定義蘋果的Firestorm CPU核心的是其微架構(gòu)的寬度。具有8-wide解碼塊,蘋果的Firestorm是目前行業(yè)中最廣泛的商業(yè)化設(shè)計。IBM即將在POWER10中推出的P10內(nèi)核是唯一一個有望在市場上發(fā)布的具有如此寬解碼器設(shè)計的官方設(shè)計,此前三星取消了他們自己的M6內(nèi)核,后者也被描述為具有如此寬的設(shè)計。

今天的其他現(xiàn)代設(shè)計,例如AMD的Zen(1至3)和英特爾的μarch,x86 CPU仍僅采用4-wide解碼器設(shè)計,由于ISA固有的可變指令長度特性,目前似乎無法將其擴展到更大的范圍,與ARM ISA的固定長度指令相比,設(shè)計能夠處理體系結(jié)構(gòu)方面的解碼器更加困難。在ARM方面,三星的設(shè)計從M3開始已經(jīng)達(dá)到了6-wide,而Arm自己的Cortex內(nèi)核隨著每一代的發(fā)展都在穩(wěn)步擴大,目前在現(xiàn)有的硅片中達(dá)到4-wide,并且預(yù)計會增加到即將推出的Cortex-X1內(nèi)核具有5-wide設(shè)計。

蘋果的微架構(gòu)是8-wide實際上對新的A14來說并不新鮮?;氐紸13,似乎我在測試中犯了一個錯誤,因為我最初認(rèn)為它是一臺 7-wide機器。最近我對它進(jìn)行了重新測試,證實蘋果正是在這一代升級了A11和12的7-wide解碼。

蘋果公司最近的設(shè)計中,有一個方面我們從來沒有真正能夠具體回答,那就是他們的無序執(zhí)行能力有多深。我們在此問題上獲得的最后官方資源是2013 Cyclone設(shè)計中ROB(重排序緩沖區(qū))的192數(shù)字。再次感謝Veedrac實施的測試似乎暴露了μarch的這一部分,我們似乎可以確認(rèn)Firestorm的ROB在630指令范圍之內(nèi),這是對去年的A13 Lightning內(nèi)核(在560中測得)的升級。目前還不清楚這是否與其他架構(gòu)中的傳統(tǒng)ROB相同,但測試至少暴露了與ROB相關(guān)的微架構(gòu)限制,并暴露了行業(yè)中其他設(shè)計的正確數(shù)據(jù)。無序窗口是指當(dāng)內(nèi)核試圖獲取并執(zhí)行每條指令的依賴關(guān)系時,內(nèi)核可以“停放”的、等待執(zhí)行的指令數(shù)量。

對于蘋果的新核心來說,A+-630 deep ROB是一個巨大的無序窗口,因為它遠(yuǎn)遠(yuǎn)超過了業(yè)內(nèi)其他設(shè)計。英特爾的Sunny Cove和Willow Cove型內(nèi)核是第二大“深”O(jiān)OO設(shè)計,擁有352個ROB型架構(gòu),AMD最新的Zen3型內(nèi)核有256個條目,最近的Arm設(shè)計如Cortex-X1有224個架構(gòu)。

與業(yè)內(nèi)其他設(shè)計師相比,蘋果是如何以及為什么能夠?qū)崿F(xiàn)如此不成比例的設(shè)計還不清楚,但這似乎是蘋果實現(xiàn)高指令水平并行的設(shè)計理念和方法的一個關(guān)鍵特征。

很多很多的執(zhí)行單位

擁有高ILP也意味著這些指令需要由機器并行執(zhí)行,這里我們還可以看到蘋果的后端執(zhí)行引擎具有非常廣泛的功能。在整數(shù)方面,我們估計其在運行中的指令和重命名物理寄存器文件的容量大約為354個條目,我們找到了至少7個用于實際算術(shù)操作的執(zhí)行端口。其中包括4個簡單的算術(shù)邏輯單元能夠加法指令,2個復(fù)雜的單元也具有MUL(乘法)功能,以及一個似乎是專用的整數(shù)除法單元。核心每個周期可以處理2個分支,我想這是由一個或兩個專用的分支轉(zhuǎn)發(fā)端口實現(xiàn)的,但我無法100%確認(rèn)這里的設(shè)計布局。

這里的Firestorm核心在整型設(shè)計方面似乎沒有重大變化,因為唯一值得注意的變化是該單元的整型除法延遲明顯略有增加(是的)。

在浮點和矢量執(zhí)行方面,新的Firestorm內(nèi)核實際上更令人印象深刻,因為蘋果增加了第四個執(zhí)行管道,使其功能增加了33%。在這里,F(xiàn)P重命名寄存器似乎有384個條目,這也是相當(dāng)龐大的。因此,這四個128位的NEON管道在理論上可以與AMD和Intel的桌面內(nèi)核的當(dāng)前吞吐量相匹配,盡管它們的吞吐量更小。這里的端點操作吞吐量與管道計數(shù)是1:1,這意味著Firestorm可以每循環(huán)執(zhí)行4個FADD和4個FMUL,分別有3個和4個周期延遲。這是英特爾CPU和之前AMD CPU的四倍,也是最近的Zen3的兩倍,當(dāng)然,仍然在較低的頻率運行。這可能是蘋果在瀏覽器基準(zhǔn)測試中表現(xiàn)如此出色的原因之一(JavaScript數(shù)字是浮點雙精度數(shù))。

這四個管道的向量能力似乎是相同的,唯一看到吞吐量較低的指令是在四個管道之一上的FP除法,倒數(shù)和平方根運算僅具有1的吞吐量。

在加載存儲方面,我們看到了似乎有四個執(zhí)行端口:一個加載/存儲,一個專用存儲和兩個專用加載單元。核心每個周期最多可以執(zhí)行3個負(fù)載,每個周期最多可以執(zhí)行2個存儲,但是最多只能同時執(zhí)行2個負(fù)載和2個存儲。

這里有趣的是蘋果處理內(nèi)存事務(wù)的深度。我們測量了大約148-154個未完成的負(fù)載和大約106個未完成的存儲,這應(yīng)該是內(nèi)存子系統(tǒng)的負(fù)載隊列和存儲隊列的等價數(shù)字。毫不奇怪,這也比市場上的任何其他微體系結(jié)構(gòu)都要深入。相比之下,AMD的Zen3和英特爾的Sunny Cove分別為128/72和128/ 64。英特爾在這里的設(shè)計與蘋果相差不遠(yuǎn),實際上這些最新的微架構(gòu)的吞吐量是相對匹配的——如果蘋果將這種設(shè)計部署到非移動內(nèi)存子系統(tǒng)和DRAM上,那將是很有趣的。

在這一代的Firestorm核心方面,最大的改進(jìn)就是TLB。L1 TLB從128頁增加了一倍,達(dá)到256頁,L2 TLB從2048頁增加到3072頁。在當(dāng)今的iPhone上,這是一個絕對過大的更改,因為頁面大小為16KB,這意味著L2 TLB覆蓋48MB,甚至超過了A14的緩存容量。隨著蘋果將微體系結(jié)構(gòu)轉(zhuǎn)移到Mac系統(tǒng)上,與4KB頁面兼容并確保設(shè)計仍提供足夠的性能,這將成為蘋果為何選擇在這一代進(jìn)行如此大規(guī)模升級的關(guān)鍵部分。

在緩存層次結(jié)構(gòu)方面,我們早就知道蘋果的設(shè)計是可怕的,而A14 Firestorm內(nèi)核延續(xù)了這一趨勢。去年我們曾猜測A13有128KB的L1指令緩存,類似于我們可以測試的128kbl1數(shù)據(jù)緩存,但是在Darwin內(nèi)核源代碼轉(zhuǎn)儲之后,蘋果證實了它實際上是一個巨大的192KB指令緩存。這絕對是巨大的,比競爭對手的Arm設(shè)計大3倍,比目前的x86設(shè)計大6倍,這可能再次解釋為什么蘋果在非常高的指令壓力工作負(fù)載(如流行的JavaScript基準(zhǔn)測試)方面表現(xiàn)出色。

巨大的高速緩存似乎也非常快– L1D以3個周期的負(fù)載使用延遲進(jìn)入。我們不知道這是否是如三星核心所描述的那樣巧妙的負(fù)載級聯(lián),但是無論如何,對于如此大的結(jié)構(gòu)來說,這是非常令人印象深刻的。AMD具有32KB的4周期緩存,而英特爾最新的Sunny Cove在將大小增加到48KB時看到了5周期的回歸。慢頻或快頻設(shè)計的優(yōu)缺點值得深思。

在L2方面,Apple一直采用兩個大核心共享的8MB結(jié)構(gòu)。這是一個非常不尋常的緩存層次結(jié)構(gòu),與其他人使用的中間大小的私有L2和更大的較慢的L3形成對比。蘋果在這里不理會規(guī)范,而是選擇大型而快速的L2。奇怪的是,這一代A14看到了大核的L2在訪問延遲方面進(jìn)行了回歸,從14個周期回到了16個周期,還原了A13所做的改進(jìn)。我們不確定為什么會發(fā)生這種情況,我確實看到標(biāo)量工作負(fù)載有更高的并行訪問帶寬進(jìn)入緩存,但是峰值帶寬似乎仍然與上一代相同。另一個假設(shè)是,由于Apple在內(nèi)核之間共享L2,因此這可能是Apple Silicon SoC發(fā)生變化的指標(biāo),因為只有兩個以上的內(nèi)核連接到單個緩存,這與A12X代很相似。

蘋果已經(jīng)在其SoC上使用大型LLC了好幾代了。A14上,這似乎又是一個16MB的緩存,服務(wù)于SoC上的所有IP塊,當(dāng)然對CPU和GPU最有用。相對而言,這種緩存層次結(jié)構(gòu)并不像其他設(shè)計的實際CPU-cluster l3那么快,而且近年來,我們看到越來越多的移動SoC供應(yīng)商為了提高功率效率而在內(nèi)存控制器前使用這種LLC。蘋果會在更大的筆記本或臺式電腦芯片上做什么還不清楚,但我認(rèn)為我們會看到類似的設(shè)計。

我們已經(jīng)討論了蘋果設(shè)計的更多具體方面,比如它們的MLP(內(nèi)存級并行)功能,而A14在這方面似乎沒有改變。我注意到A13的另一個變化是,新的設(shè)計現(xiàn)在也利用了Arm更輕松的內(nèi)存模型,它能夠自動優(yōu)化流媒體存儲到非臨時存儲中,模仿Cortex-A76和Exynos-M4中引入的變化。從理論上講,x86設(shè)計無法實現(xiàn)類似的優(yōu)化,如果有人嘗試這樣做,將非常有趣。

當(dāng)然,關(guān)于擁有非常廣泛的體系結(jié)構(gòu)的古老觀點是,你不能把時鐘設(shè)到與比它窄的東西一樣高的地方。這在某種程度上是正確的;不過,我不會對蘋果的設(shè)計在更高功率設(shè)備上的性能做出任何結(jié)論。在新款iphone的A14上,新的Firestorm內(nèi)核可以達(dá)到3GHz的時鐘速度,當(dāng)有兩個內(nèi)核同時工作時,時鐘速度可以降至2.89GHz

我們將稍后詳細(xì)研究功耗,但是我目前看到Apple受實際手機散熱的限制,而不是微體系結(jié)構(gòu)的固有時鐘上限。新的Firestorm內(nèi)核現(xiàn)在的時鐘速度與Arm上其他移動CPU微體系結(jié)構(gòu)的速度大致相同,即使它的設(shè)計范圍更廣。因此,由于設(shè)計更加復(fù)雜而不得不降低時鐘速度的論點似乎也不適用于這個實例。蘋果不僅可以在筆記本電腦這樣的高溫度封裝設(shè)備上做什么,還可以在Mac這樣的壁掛式設(shè)備上做什么,這將是一件非常有趣的事情。

主導(dǎo)移動性能

在我們深入探討x86與Apple Silicon的爭論之前,有必要更詳細(xì)地研究A14 Firestorm內(nèi)核在A13 Lightning內(nèi)核基礎(chǔ)上的改進(jìn)方式,以及詳細(xì)介紹新芯片5nm工藝的功率和功率效率改進(jìn)節(jié)點。

在這里的比較中,流程節(jié)點實際上是一個通配碼,因為A14是市場上第一個5nm芯片組,緊隨其后的是華為Mate 40系列的麒麟9000。我們碰巧有設(shè)備和芯片在內(nèi)部進(jìn)行測試,對比一下麒麟9000(N5上的Cortex-A77 3.13GHz)和Snapdragon 865+(N7P上的Cortex-A77 3.09GHz),我們可以從某種程度上推斷出處理節(jié)點在功率和效率方面有多大影響,將這些改進(jìn)轉(zhuǎn)化為A13與A14的比較。

從SPECint2006開始,我們沒有看到A14分?jǐn)?shù)有什么不尋常的,除了456的巨大進(jìn)步。實際上,這并不是由于微架構(gòu)的飛躍,而是由于Xcode 12中新的LLVM版本進(jìn)行了新的優(yōu)化。在這里,編譯器似乎使用了類似于在GCC8上發(fā)現(xiàn)的循環(huán)優(yōu)化。A13的分?jǐn)?shù)實際上已經(jīng)從47.79提高到了64.87,但我還沒有在整個套件上運行新的數(shù)字。

對于其余的工作負(fù)載,A14通常看起來像一個相對于A13的線性進(jìn)程,因為時鐘頻率從2.66GHz增加到3GHz。IPC的整體漲幅在5%左右,略低于蘋果的前幾代產(chǎn)品,不過時鐘速度的漲幅要大于通常的水平。

新芯片的功耗實際上是一致的,有時甚至比A13更好,這意味著這一代的工作負(fù)載能源效率已經(jīng)看到了明顯的改善,即使在峰值性能點。

與當(dāng)代的Android和以Cortex-core為核心的SoC相比,蘋果的性能似乎相當(dāng)不平衡。最突出的一點是內(nèi)存密集型、稀疏內(nèi)存,其特點是工作負(fù)載(如429.mcf和471.omnetpp),蘋果的設(shè)計功能遠(yuǎn)遠(yuǎn)超過性能的兩倍,盡管所有芯片都運行著類似的移動級LPDDR4X/LPDDR5內(nèi)存。在我們的微體系結(jié)構(gòu)調(diào)查中,我們發(fā)現(xiàn)Apple設(shè)計上存在“記憶魔力”的跡象,我們可能會認(rèn)為它們正在使用某種指針追隨預(yù)取機制。

在SPECfp中,A14在A13上的增長比線性時鐘頻率的增長略高,因為我們在這里測量了10-11%的IPC上升。考慮到設(shè)計中額外的第四個FP/SIMD管道,這并不太令人驚訝,而與A13相比,核心的整數(shù)部分保持了相對不變。

在整體的手機比較中,我們可以看到新的A14在性能提升方面比A13取得了強勁的進(jìn)步。與競爭對手相比,蘋果遙遙領(lǐng)先——我們必須等到明年的Cortex-X1設(shè)備才能看到差距再次縮小。

還有非常重要的一點需要注意的是,蘋果在實現(xiàn)這一切的同時,還保持了扁平狀態(tài),甚至降低了新芯片的功耗,顯著降低了相同工作負(fù)載下的能耗。

看看麒麟9000和Snapdragon 865+,我們發(fā)現(xiàn)功率在相對相似的性能下降低了10%。兩種芯片都使用相同的CPU IP,只是它們的處理節(jié)點和實現(xiàn)方式不同??雌饋硖O果的A14不僅能夠?qū)崿F(xiàn)工藝節(jié)點的改進(jìn),而且能夠取得更好的數(shù)據(jù),這也是考慮到它也是一種新的微體系結(jié)構(gòu)設(shè)計。

還有一點需要注意的是A14小型效率核心的數(shù)據(jù)。在這一代中,我們看到了這些新內(nèi)核的巨大微體系結(jié)構(gòu)提升,與去年的A13效率內(nèi)核相比,這些新內(nèi)核現(xiàn)在的性能提高了35%,同時還進(jìn)一步降低了能耗。我不知道小核將如何在Apple的“ Apple Silicon” Mac設(shè)計中發(fā)揮作用,但是與其他當(dāng)前的現(xiàn)代Arm設(shè)計相比,它們肯定仍然非常高效且非常高效。

最后,是x86與蘋果的性能比較。通常對于iPhone的評論,我會在這篇文章的這一部分對此進(jìn)行評論,但是考慮到今天的背景和蘋果為蘋果硅所制定的目標(biāo),讓我們用一個完整的專門章節(jié)來研究這個問題…

從移動設(shè)備到Mac:會發(fā)生什么?

迄今為止,我們對Apple芯片組的性能比較一直是在iPhone評論的背景下進(jìn)行的,與x86設(shè)計并列的內(nèi)容在本文中只是一個很小的腳注。今天的Apple Silicon發(fā)布會完全改變了我們對性能的描述,拋開了人們通常爭論的典型蘋果與橘子的比較。

我們目前沒有Apple Silicon設(shè)備,很可能再過幾周都不會使用它們,但我們確實有A14,并且預(yù)計新的Mac芯片將基于我們在iPhone設(shè)計中看到的微架構(gòu)。當(dāng)然,我們?nèi)匀辉诒容^手機芯片與高端筆記本電腦,甚至是高端臺式機芯片,但考慮到性能數(shù)字,這也正是我們在這里要說的重點,這是蘋果新推出的Apple Silicon Mac芯片所能達(dá)到的最低限度。

這張圖表上A14的性能數(shù)字令人難以置信。如果我在隱藏A14標(biāo)簽的情況下發(fā)布此數(shù)據(jù),可能會猜到這些數(shù)據(jù)點來自AMD或Intel的其他x86 SKU。A14當(dāng)前可以與當(dāng)今x86供應(yīng)商在市場上擁有的最佳頂級性能設(shè)計相抗衡,這真是一個了不起的壯舉。

查看詳細(xì)分?jǐn)?shù),再次令我感到驚訝的是,A14不僅保持了這種速度,而且在內(nèi)存延遲敏感型工作負(fù)載(例如429.mcf和471.omnetpp)上實際上擊敗了這兩個競爭對手,即使它們具有相同的性能內(nèi)存(帶LPDDR4X-4266的i7-1185G7)或臺式機級內(nèi)存(帶DDR-3200的5950X)。

同樣,請忽略A14的456.hmmer得分優(yōu)勢,這主要是由于編譯器差異造成的,請減去33%,以獲得更合適的比較數(shù)字。

即使在SPECfp中,A14不僅可以跟上,而且通常比Intel的CPU設(shè)計好得多。如果不是最近發(fā)布的Zen3設(shè)計,AMD也不會看起來很好。

在整個SPEC2006中,A14的表現(xiàn)絕對出色,在絕對性能上領(lǐng)先于AMD最近的Ryzen 5000系列。

事實上,蘋果能夠在一個包括SoC、DRAM和監(jiān)管機構(gòu)在內(nèi)的設(shè)備總功耗為5W的情況下實現(xiàn)這一點,而在沒有DRAM或監(jiān)管的情況下,設(shè)備功耗為+21W (1185G7)和49W (5950X)。這絕對是令人震驚的。

對于GeekBench等更常見的基準(zhǔn)測試套件,已經(jīng)有了許多批評,但坦率地說,我發(fā)現(xiàn)這些擔(dān)憂或爭論是完全沒有根據(jù)的。SPEC中的工作負(fù)載和GB5中的工作負(fù)載之間的唯一實際區(qū)別是,后者的異常值測試較少,這意味著它更多地是一個CPU基準(zhǔn)測試,而SPEC更傾向于CPU+DRAM。

蘋果公司在兩種工作負(fù)載中均表現(xiàn)出色,這證明它們具有極其平衡的微體系結(jié)構(gòu),并且Apple Silicon將能夠在性能方面擴展至“桌面工作負(fù)載”而不會出現(xiàn)太大問題。

性能軌跡最終在哪里相交

在A7發(fā)布期間,人們對蘋果稱其微體系結(jié)構(gòu)為桌面類設(shè)計的事實相當(dāng)不屑一顧。人們對我們幾年前把A11和A12稱為接近桌面水平的性能數(shù)據(jù)也非常不屑一顧,今天標(biāo)志著這個行業(yè)的一個重要時刻,因為蘋果A14現(xiàn)在顯然能夠展示出英特爾所能提供的最佳性能。這是一個多年來一直在穩(wěn)步執(zhí)行和進(jìn)步的績效軌跡:

在過去的5年里,英特爾成功地將他們最好的單線程性能提高了約28%,而蘋果成功地將他們的設(shè)計提高了198%,或者說是2015年底蘋果A9性能的2.98倍(3倍)。

這些年來,Apple的性能軌跡和毫無疑問的執(zhí)行力已使Apple Silicon成為當(dāng)今的現(xiàn)實。任何看到這張圖表的荒謬之處的人都會意識到,蘋果除了放棄英特爾和x86、轉(zhuǎn)而采用自己的內(nèi)部微架構(gòu)之外,沒有其他選擇——按部不動將意味著停滯不前和更糟糕的消費產(chǎn)品。

今天的公告只涉及蘋果筆記本電腦級的蘋果硅芯片,雖然我們在撰寫本文時還不知道蘋果將推出什么產(chǎn)品的細(xì)節(jié),但蘋果巨大的能效優(yōu)勢意味著新芯片將能夠提供大幅延長的電池壽命和/或大幅提升的性能當(dāng)前的英特爾MacBook產(chǎn)品線。

蘋果公司聲稱,他們將在兩年內(nèi)將整個消費產(chǎn)品線完全轉(zhuǎn)換為蘋果硅芯片,這也預(yù)示著我們將看到未來的Mac Pro將采用高TDP 多核設(shè)計。如果該公司能夠繼續(xù)目前的表現(xiàn)軌跡,它將看起來非常令人印象深刻。

蘋果瞄準(zhǔn)明星:在任的x86要小心了

前幾頁是在蘋果正式宣布新的M1芯片之前寫的。我們已經(jīng)看到了A14的出色表現(xiàn),并超過了英特爾所能提供的最好的性能。新的M1的表現(xiàn)應(yīng)該明顯高于這一水平。

在演示過程中,我們將回顧蘋果的幾張幻燈片,以期對性能和效率有何期待。特別是性能/功率曲線,這是蘋果目前分享的最詳細(xì)的信息:

蘋果展示了新的M1芯片,其CPU功耗峰值約為18W。與之競爭的PC筆記本電腦芯片在35-40W范圍內(nèi)達(dá)到峰值,因此這些數(shù)據(jù)肯定不是單線程性能數(shù)據(jù),而是全芯片多線程性能。我們不知道這是否是比較M1與AMD Renoir 芯片或英特爾ICL或TGL芯片,但在這兩種情況下,同樣的普遍結(jié)論適用:

蘋果公司使用了更為先進(jìn)的微體系結(jié)構(gòu),該體系結(jié)構(gòu)提供了顯著的IPC,可在低內(nèi)核時鐘下實現(xiàn)高性能,與現(xiàn)有的x86處理器相比,可顯著提高電源效率。該圖顯示,與現(xiàn)有競爭產(chǎn)品相比,M1在峰峰值處的性能提升約40%,而功耗僅為40%。

蘋果公司對隨機性能點的比較是值得批評的,但是蘋果聲稱其性能是2.5倍的10W測量點確實是有道理的,因為這是基于Intel的MacBook Air使用的芯片的標(biāo)稱TDP。同樣,這要歸功于Apple在移動領(lǐng)域已經(jīng)實現(xiàn)的能效特性,因此M1有望展現(xiàn)出如此大的收益-它肯定與我們的A14數(shù)據(jù)相匹配。

不要忘了GPU

今天,我們主要討論了CPU方面的問題,因為這是發(fā)生前所未有的行業(yè)轉(zhuǎn)變的地方。但是,我們不應(yīng)忘記GPU,因為新的M1代表了Apple首次將其自定義設(shè)計引入Mac領(lǐng)域。

蘋果在性能和能效方面的聲明確實缺乏背景,因為我們不知道他們的比較點是什么。我不會試圖在這里建立理論,因為有太多的變量在起作用,而且我們不知道足夠的細(xì)節(jié)。

我們所知道的是,在移動領(lǐng)域,蘋果在性能和能效方面絕對領(lǐng)先。上次我們測試A12Z的時候,它的設(shè)計遠(yuǎn)遠(yuǎn)超過了集成圖形設(shè)計。但從那以后,AMD和英特爾的業(yè)績都出現(xiàn)了更顯著的躍升。

性能領(lǐng)導(dǎo)?

蘋果聲稱M1是世界上最快的CPU。根據(jù)我們的數(shù)據(jù),A14擊敗了所有英特爾的設(shè)計,只是低于AMD最新的Zen3芯片——高于3GHz的更高時鐘,更大的L2緩存,和釋放的TDP,我們當(dāng)然可以相信蘋果和M1能夠?qū)崿F(xiàn)這一目標(biāo)。

這個時刻已經(jīng)醞釀了多年,而新的Apple Silicon既令人震驚,也讓人非常期待。在接下來的幾周內(nèi),我們將嘗試得到我們的新硬件,并證實蘋果的說法。

英特爾在市場上停滯不前,今天失去了一個主要客戶。AMD最近已經(jīng)有了很大的進(jìn)步,但是要趕上蘋果的耗電量還是非常困難的。如果蘋果的性能軌跡繼續(xù)以這種速度發(fā)展下去,x86的性能皇冠可能永遠(yuǎn)也無法重新獲得。
責(zé)任編輯:tzh

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    20269

    瀏覽量

    252867
  • 芯片
    +關(guān)注

    關(guān)注

    463

    文章

    54060

    瀏覽量

    466855
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5209

    瀏覽量

    135600
  • 蘋果
    +關(guān)注

    關(guān)注

    61

    文章

    24601

    瀏覽量

    208455
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    神眸再發(fā)新品!M1智能親情可視通搭起遠(yuǎn)程陪伴橋梁

    2月13日,杭州研極微電子有限公司旗下品牌神眸繼發(fā)布DC1停車記錄儀后,緊接再推新品,聚焦老年陪伴市場,正式發(fā)布M1智能親情可視通,搭建子女與年邁父母遠(yuǎn)程溝通的橋梁。該產(chǎn)品支持4G免流量、通話永久
    的頭像 發(fā)表于 02-13 11:37 ?484次閱讀
    神眸再發(fā)新品!<b class='flag-5'>M1</b>智能親情可視通搭起遠(yuǎn)程陪伴橋梁

    Microchip擴展maXTouch? M1觸摸屏控制系列,實現(xiàn)更廣泛的屏幕尺寸覆蓋

    新型觸摸屏控制為現(xiàn)代汽車應(yīng)用中超小到超大顯示格式帶來可靠觸摸傳感 ? Microchip Technology (微芯科技公司)再次擴展其 maXTouch ? ?M1 觸摸屏控制系列,為更廣
    的頭像 發(fā)表于 01-29 10:41 ?6.4w次閱讀
    Microchip擴展maXTouch? <b class='flag-5'>M1</b>觸摸屏控制<b class='flag-5'>器</b>系列,實現(xiàn)更廣泛的屏幕尺寸覆蓋

    Cortex-M0 處理器介紹

    Cortex-M0 處理器簡介ARM公司的Cortex-M0應(yīng)用于各種微控制(MCU)中,并可讓研發(fā)工程師以8位的價位創(chuàng)造32位的的效能,并將傳統(tǒng)的8位和16位的
    發(fā)表于 01-16 08:04

    EVAL - M1 - 101T評估板:電機控制應(yīng)用的理想選擇

    EVAL - M1 - 101T評估板:電機控制應(yīng)用的理想選擇 在電機控制應(yīng)用領(lǐng)域,一款性能出色、功能豐富的評估板能為電子工程師的設(shè)計工作帶來極大便利。今天,我們就來深入探討英飛凌(Infineon
    的頭像 發(fā)表于 12-21 14:45 ?1359次閱讀

    探索Eval - M1 - CM610N3評估板:電機驅(qū)動應(yīng)用的理想之選

    探索Eval - M1 - CM610N3評估板:電機驅(qū)動應(yīng)用的理想之選 在電機驅(qū)動應(yīng)用的設(shè)計領(lǐng)域,擁有一款性能出色且易于評估的開發(fā)板至關(guān)重要。今天,我們就來詳細(xì)探討一下英飛凌(Infineon
    的頭像 發(fā)表于 12-21 09:40 ?701次閱讀

    EVAL - M1 - IM523評估板:助力電機驅(qū)動應(yīng)用設(shè)計

    EVAL-M1-IM523 評估板.pdf 評估板概述 EVAL - M1 - IM523評估板專為主要家用電器(如空調(diào)、泵、風(fēng)扇等變速驅(qū)動)的電機驅(qū)動應(yīng)用設(shè)
    的頭像 發(fā)表于 12-19 15:50 ?603次閱讀

    M1 SMA整流二極管規(guī)格書

    M1 SMA/DO-214AC整流二極管,電流:1A 50V
    發(fā)表于 10-29 17:02 ?0次下載

    Cortex-M0+處理器的HardFault錯誤介紹

    在ARM處理器中,如果一個程序產(chǎn)生了錯誤并且被處理器檢測到,就會產(chǎn)生錯誤異常。Cortex-M0+處理器只有一種異常用以處理錯誤:HardF
    的頭像 發(fā)表于 10-14 10:50 ?3425次閱讀
    Cortex-<b class='flag-5'>M</b>0+<b class='flag-5'>處理器</b>的HardFault錯誤介紹

    【老法師】多核異構(gòu)處理器M核程序的啟動、編寫和仿真

    文章,小編就將以飛凌嵌入式的OKMX8MP-C開發(fā)板為例,為大家介紹多核異構(gòu)處理器M核程序的啟動配置、程序編寫和實時仿真的過程。
    的頭像 發(fā)表于 08-13 09:05 ?4026次閱讀
    【老法師】多核異構(gòu)<b class='flag-5'>處理器</b>中<b class='flag-5'>M</b>核程序的啟動、編寫和仿真

    RZ/A3M 1 GHz微處理器(MPU)數(shù)據(jù)手冊和產(chǎn)品介紹

    Renesas Electronics RZ/A3M 1GHz微處理器基于Arm^?^ Cortex ^?^ -A55 (CA55) 內(nèi)核(帶NEON?擴展)。內(nèi)置大容量128MB DDR3L存儲
    的頭像 發(fā)表于 07-11 11:30 ?2107次閱讀
    RZ/A3<b class='flag-5'>M</b> <b class='flag-5'>1</b> GHz微<b class='flag-5'>處理器</b>(MPU)數(shù)據(jù)手冊和產(chǎn)品介紹

    用于 Cat M1/1/NTN 和 WCDMA HSDPA/HSUPA/HSPA(頻段 1、2、4、5、8)和 CDMA(頻段類別 0、1、6、15)的多模式、多頻段功率放大器模塊 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()用于 Cat M1/1/NTN 和 WCDMA HSDPA/HSUPA/HSPA(頻段 1、2、4、5、8)和 CDMA(頻段類別 0、1、6、15)的多模式、
    發(fā)表于 05-13 18:35
    用于 Cat <b class='flag-5'>M1</b>/<b class='flag-5'>1</b>/NTN 和 WCDMA HSDPA/HSUPA/HSPA(頻段 <b class='flag-5'>1</b>、2、4、5、8)和 CDMA(頻段類別 0、<b class='flag-5'>1</b>、6、15)的多模式、多頻段功率放大器模塊 skyworksinc

    聯(lián)想開天M90z G1s臺式機搭載兆芯開先KX-7000處理器

    聯(lián)想開天M90z G1s是M90z系列產(chǎn)品的另一名重要“成員”,該機型搭載兆芯開先KX-7000處理器,與采用標(biāo)準(zhǔn)機身設(shè)計的高性能AIPC臺式機M
    的頭像 發(fā)表于 04-23 16:16 ?1776次閱讀

    TPS3307-18M 三通道處理器監(jiān)控數(shù)據(jù)手冊

    TPS3307-18M 是一款專為軍事應(yīng)用設(shè)計的三處理器監(jiān)控,適用于DSP和處理器基系統(tǒng),能夠監(jiān)控多達(dá)三個獨立的電源電壓,確保電路在系統(tǒng)上電和運行時能夠正確初始化。
    的頭像 發(fā)表于 04-11 17:13 ?960次閱讀
    TPS3307-18<b class='flag-5'>M</b> 三通道<b class='flag-5'>處理器</b>監(jiān)控<b class='flag-5'>器</b>數(shù)據(jù)手冊

    海光雙路服務(wù)主板,支持 5000/7000系列 2/3號處理器

    處理器
    jf_10805031
    發(fā)布于 :2025年04月02日 14:17:42

    M350數(shù)字效果處理器中文說明書

    電子發(fā)燒友網(wǎng)站提供《M350數(shù)字效果處理器中文說明書.pdf》資料免費下載
    發(fā)表于 03-26 14:27 ?0次下載