91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

將多核復(fù)雜性與不同的工具和架構(gòu)混合在一起

星星科技指導(dǎo)員 ? 來源:嵌入式計(jì)算設(shè)計(jì) ? 作者:Bruce Edwards ? 2022-06-14 16:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

假設(shè)不考慮金錢、時(shí)間或商業(yè)限制,并且只有物理學(xué)是唯一的限制,您將如何設(shè)計(jì)最終的計(jì)算機(jī)處理器?它會(huì)大規(guī)模并行,以極高的頻率運(yùn)行,并使用奇異的光學(xué)或量子互連嗎?它會(huì)運(yùn)行熟悉的軟件,如 x86 或 PowerPC,還是有新的優(yōu)化指令集?它會(huì)很大還是很小?它是否需要智能編譯器或獨(dú)特的軟件結(jié)構(gòu)?

多年來,為了讓處理器運(yùn)行得更快,設(shè)計(jì)人員必須做的就是提高時(shí)鐘速度。在功耗和相關(guān)的散熱趕上速度增加之前,這一直很好。超越這一點(diǎn),走得更快意味著除了走得更快之外還要做一些事情。

多核速度更快,但是……

從此開始了多核時(shí)代。如果兩個(gè)頭比一個(gè)好,那么四個(gè)肯定是兩倍好。在某種程度上,這個(gè)公理是正確的。但是今天的雙核和四核處理器的運(yùn)行速度并不比上一代快兩到四倍。

這有兩個(gè)原因:硬件和軟件。當(dāng)今絕大多數(shù)多核芯片的擴(kuò)展性都不是很好,因此四核并不能真正提供四倍于單核實(shí)現(xiàn)的性能。片上總線跟不上,緩存一致性開銷會(huì)消耗性能,管道過于頻繁地停止等等。由于各種原因,當(dāng)核心數(shù)量翻倍時(shí),傳統(tǒng)的微處理器架構(gòu)不會(huì)接近雙倍的性能。

在軟件方面,許多程序員不習(xí)慣或不熟悉多核編程。當(dāng)所討論的多核芯片包含不同類型的處理器內(nèi)核(通常稱為異構(gòu)架構(gòu))時(shí),尤其如此。對(duì)一個(gè)處理器進(jìn)行編程已經(jīng)夠難了;使用單獨(dú)的工具鏈對(duì)四個(gè)不同的工具進(jìn)行編程要復(fù)雜得多。

異構(gòu)的,同質(zhì)的,還是只是龐大的?

可以提出一個(gè)論點(diǎn),即不同的計(jì)算問題需要不同的資源,因此微處理器應(yīng)該包括一系列不同的處理資源。例如,一些任務(wù)可能需要信號(hào)處理能力,另一些可能需要單指令多數(shù)據(jù)矢量處理,而還有一些可能涉及復(fù)雜的決策樹和大量數(shù)據(jù)移動(dòng)。

一種觀點(diǎn)認(rèn)為,沒有一種處理器架構(gòu)可以有效地處理所有這些不同的任務(wù)。因此,需要不同架構(gòu)的馬賽克。在極端情況下,可以設(shè)想一個(gè)處理器由截然不同的計(jì)算引擎組成,除了它們共享的包之外沒有任何共同之處。這些處理器實(shí)際上是共存的,而不是合作的。

相反的方法是選擇一個(gè)指令集并堅(jiān)持下去。這無疑簡(jiǎn)化了編程,但存在部署過于通用的處理器的風(fēng)險(xiǎn),這些處理器沒有針對(duì)特定任務(wù)進(jìn)行微調(diào)。另一方面,處理器是可編程的,改變軟件比改變硬件更容易、更便宜。

易于編程也不是一個(gè)小問題。延遲通常是由軟件錯(cuò)誤引起的,而不是硬件問題。更復(fù)雜的是,程序員被多核處理器嚇得要死。讓一個(gè)高端處理器可靠地工作已經(jīng)夠難的了。你如何編程和調(diào)試其中的 10 個(gè)?使用一個(gè)內(nèi)核架構(gòu)進(jìn)行編程、調(diào)試和設(shè)計(jì)比處理具有不同指令集、架構(gòu)、總線、工具和調(diào)試方法的不同內(nèi)核的混合體更容易。

對(duì)比方法

英特爾AMD 已將大部分建議牢記在心,并生產(chǎn)了其傳統(tǒng) x86 架構(gòu)的雙核和四核版本。在某種程度上,這只是將資產(chǎn)從負(fù)債中提取出來。x86 是他們知道如何做的,向后兼容性對(duì)他們的市場(chǎng)至關(guān)重要?,F(xiàn)有的 x86 代碼在這些升級(jí)后的設(shè)計(jì)上運(yùn)行良好,盡管它很少運(yùn)行得比以前快得多,也很少使用額外的內(nèi)核。

相比之下,許多 RISC CPU 和網(wǎng)絡(luò)處理器 (NPU) 供應(yīng)商采取了截然不同的方法,將各種不同的處理器內(nèi)核和架構(gòu)混合到各種瑞士軍刀設(shè)計(jì)中。例如,IBM 著名的 Cell 處理器(圖 1)有一個(gè)通用處理器內(nèi)核和八個(gè)專用內(nèi)核,需要不同的工具和編程技術(shù)。幾條寬總線——一些環(huán),一些更傳統(tǒng)的——以各種方式連接核心。Cell 的性能令人印象深刻,但 PlayStation 程序員抱怨 Cell 是一頭難以馴服的野獸,部分原因是管理帶寬、延遲、總線事務(wù)和一致性都是游戲的一部分。

圖 1: IBM 的 Cell Broadband Engine 芯片包括九個(gè)處理器,其中一個(gè)基于 PowerPC。處理器通過元素互連總線連接,共有 12 個(gè)主控器。它被實(shí)現(xiàn)為四個(gè)反向旋轉(zhuǎn)的單向環(huán)。

poYBAGKoQYeAJBpFAANXntrKZqg173.png

將所有正確的硬件資源集中到單個(gè)芯片上是一回事。使組合可用是另一回事。具有混合架構(gòu)的大規(guī)模并行芯片結(jié)合了兩全其美:大規(guī)模多核復(fù)雜性與完全不同的工具和架構(gòu)。這就像在您的芯片中舉行聯(lián)合國(guó)會(huì)議一樣。

嚙合在一起

更好的方法是保留大規(guī)模并行部分,這是高性能的必要條件,但拋棄差異并將許多相同的處理器內(nèi)核連接到二維網(wǎng)格中。從概念上講,它與通過網(wǎng)絡(luò)連接單個(gè)計(jì)算機(jī)沒有太大區(qū)別,只是在微觀尺度上。

Meshing也有“grok-ability”的一面。程序員不難想到十個(gè)、100 或 1000 個(gè)相同的處理器內(nèi)核以相同的方式工作并以一種簡(jiǎn)單但大部分透明的方式相互通信。1000 個(gè)元素中的每一個(gè)是否都針對(duì)給定的工作進(jìn)行了完美調(diào)整幾乎無關(guān)緊要。重要的是有 1,000 個(gè)處理器可以解決一個(gè)問題。

這種均勻的布置也有助于可擴(kuò)展性。雖然類似 Cell 的組合非常適合它們的特定任務(wù),但構(gòu)建更大或更小的 Cell 版本需要芯片制造商進(jìn)行大量的重新設(shè)計(jì)工作,接收端的程序員甚至需要更多的工作。現(xiàn)有的 Cell 代碼不會(huì)神奇地放大或縮小到具有不同資源組合的芯片。它可能根本不會(huì)運(yùn)行。相比之下,在相同處理器的網(wǎng)格中增加 25% 的處理器可增加 25% 的計(jì)算能力,而不會(huì)破壞現(xiàn)有代碼。

這并不意味著設(shè)計(jì)這種類型的芯片是微不足道的。核心之間的帶寬是第一個(gè)挑戰(zhàn)。如果核心不能有效地相互通信,那么連接它們就沒有多大意義了。這種方法的一個(gè)例子是 Tilera 的 TILE-Gx100 處理器(圖 2),包含 100 個(gè)相同的內(nèi)核。在此處理器中,相鄰內(nèi)核之間的帶寬為 1,100 Gbps。每個(gè)核心在北/南/東/西方向有四個(gè)連接,100 核處理器的總帶寬為 200 TBps。大多數(shù)應(yīng)用程序很難使用其中的一小部分。即使是 Tilera 相對(duì)適中的具有 4x4 內(nèi)核陣列的 Gx16 芯片也擁有 20 TBps 的片上帶寬。

圖 2:其中一個(gè) Tilera TILE-Gx 處理器內(nèi)核(其中 n 為 16 到 100)有效地處理內(nèi)核之間的帶寬。每個(gè)核心塊都有自己的 64 位處理器、L1 和 L2 緩存,以及與北/南/東/西方向的四個(gè)鄰居的網(wǎng)絡(luò)連接。

poYBAGKoQZCALoVKAAWOv-bzN6Q682.png

這種基于圖塊的設(shè)計(jì)的另一個(gè)挑戰(zhàn)是內(nèi)存延遲。如果內(nèi)存不夠接近或無法訪問,所有這些處理器都可能會(huì)停止運(yùn)行。同樣,Tilera 將其設(shè)備分解為易于復(fù)制的切片,每個(gè)切片都有自己的本地 L1 和 L2 緩存。有趣的是,即使內(nèi)存是每個(gè)圖塊的本地內(nèi)存,它也可以是更大的共享分布式緩存的一部分,該緩存在所有共享者之間保持一致性。在某些情況下,程序員可能想要定義任意數(shù)量的緩存一致性島,必要時(shí)與相鄰的切片合作或忽略。

整個(gè)芯片架構(gòu)就像一個(gè)計(jì)算結(jié)構(gòu)。相同的邏輯塊、內(nèi)存塊和互連塊在行和列中復(fù)制,以制造更大或更小的芯片。就像 FPGA 或分形 Mandelbrot 圖像一樣,平鋪處理器在任何規(guī)模上看起來都是一樣的。大或小,它的編程方式相同??蓴U(kuò)展性平方。

與四核 x86 類似,但與 Cell 或 NVIDIA 芯片不同,TILE-Gx 網(wǎng)狀互連在引擎蓋下透明地工作。Mesh 流量不需要手動(dòng)調(diào)整,事務(wù)也不需要手動(dòng)調(diào)整以避免沖突或仲裁。盡管它位于中心,但網(wǎng)格基本上是不可見的,這正是程序員喜歡它的方式。

可擴(kuò)展性最終獲勝

與大多數(shù)生態(tài)系統(tǒng)一樣,許多不同類型的處理器將繼續(xù)存在。有些人會(huì)茁壯成長(zhǎng),而另一些人將勉強(qiáng)在某個(gè)特定的利基市場(chǎng)謀生。外部力量將淘汰牛群,就像圖形和網(wǎng)絡(luò)處理器一樣,篩選出那些不適合當(dāng)前環(huán)境的人。

在過去的幾十年里,可擴(kuò)展性和可編程性一直是關(guān)鍵。開發(fā)人員需要一種他們可以理解并能持續(xù)使用的芯片。他們想要一個(gè)增長(zhǎng)路線圖,包括價(jià)格/性能規(guī)模的上下。讓它變得非常非??煲矝]有什么壞處。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    20282

    瀏覽量

    253104
  • 芯片
    +關(guān)注

    關(guān)注

    463

    文章

    54084

    瀏覽量

    467180
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5644

    瀏覽量

    109903
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    阿里狗16.6,層疊表能打開,但是打開后內(nèi)容縮在一起,調(diào)整間距之后,關(guān)閉在打開還是縮在一起,怎么處理呢

    阿里狗16.6,層疊表能打開,但是打開后內(nèi)容縮在一起,調(diào)整間距之后,關(guān)閉在打開還是縮在一起,怎么處理呢 試過初始化窗口,重新破解,還有重新加載補(bǔ)丁,都不行
    發(fā)表于 02-13 11:01

    XINGLIGHT成興光 2026光耦產(chǎn)品手冊(cè)

    1.晶體管光耦(PhotoTransistorCoupler)是發(fā)光器件和光敏器件組合在一起的半導(dǎo)體器件,用于實(shí)現(xiàn)電路之間的電氣隔離,同時(shí)傳遞信號(hào)或功率??煞譃閱蜗蚓w管光耦(直流)和雙向
    發(fā)表于 01-19 14:16 ?0次下載

    聚是鴻蒙氣,散是滿天星!《鴻蒙星光盛典》詮釋“在一起”的群像力量

    在“數(shù)字中國(guó)”戰(zhàn)略邁入十周年、“十四五”規(guī)劃收官之際,各地追光人用特別的方式相聚《鴻蒙星光盛典》。這場(chǎng)以“在一起”為主題的盛典,是中國(guó)科技自立自強(qiáng)之路的深情回望,是千行百業(yè)共建數(shù)字中國(guó)的生動(dòng)展示,更是場(chǎng)面向未來的集體期許。
    發(fā)表于 12-22 17:58 ?1048次閱讀
    聚是鴻蒙氣,散是滿天星!《鴻蒙星光盛典》詮釋“<b class='flag-5'>在一起</b>”的群像力量

    Video Processing Subsystem與HDMI示例設(shè)計(jì)

    在撰寫本文時(shí),HDMI Transmitter Subsystem IP 核與 Video Processing Subsystem IP 核均有多個(gè)示例設(shè)計(jì)可供使用,但并沒有演示兩者功能結(jié)合在一起來使用的設(shè)計(jì)。
    的頭像 發(fā)表于 11-07 10:35 ?796次閱讀
    Video Processing Subsystem與HDMI示例設(shè)計(jì)

    醫(yī)療PCB供應(yīng)鏈復(fù)雜性與風(fēng)險(xiǎn)管控

    印刷電路板(PCB)最初作為種用于承載和連接電子元件的簡(jiǎn)單解決方案,并不需要復(fù)雜的點(diǎn)對(duì)點(diǎn)布線。如今,PCB已成為我們?nèi)粘I畹闹匾M成部分,并且隨著技術(shù)進(jìn)步,以前的簡(jiǎn)單性逐步讓位于復(fù)雜性?,F(xiàn)在我們
    的頭像 發(fā)表于 10-14 14:17 ?564次閱讀

    N9H20如何 SPI 閃存與非作系統(tǒng) BSP 一起使用?

    N9H20如何 SPI 閃存與非作系統(tǒng) BSP 一起使用?
    發(fā)表于 09-01 08:27

    Temp-Flex混合型帶狀電纜有哪些特性?-赫聯(lián)電子

      Molex推出了Temp-Flex混合型帶狀電纜,把各種類型和尺寸的電線結(jié)合在一起,同時(shí)提供系列絕緣設(shè)計(jì)。   Temp-Flex混合型帶狀電纜的特點(diǎn)和優(yōu)點(diǎn)是定制的
    發(fā)表于 08-19 11:36

    電動(dòng)汽車用異步電動(dòng)機(jī)混合控制系統(tǒng)的研究

    ,通過把 FOC 和 DTC 這兩種控制方法結(jié)合在一起,取長(zhǎng)補(bǔ)短,形成種對(duì)異步電動(dòng)機(jī)的混合控制方法。其次,還搭建了該控制系統(tǒng)的 Matlab 仿真模型和基于 DSP2812的硬件電路,通過
    發(fā)表于 07-24 11:51

    無法Jlink調(diào)試器與CYBT263065EVAL COOLDIM_PRG_BOARD連接在一起怎么解決?

    我無法 Jlink 調(diào)試器與 CYBT263065EVAL COOLDIM_PRG_BOARD連接在一起。
    發(fā)表于 07-03 06:24

    Analog Devices Inc. LTC4451 40V 7A理想二極管數(shù)據(jù)手冊(cè)

    Analog Devices Inc. LTC4451 40V 7A理想二極管使用集成N溝道功率MOSFET替代高性能肖特基二極管。該器件可輕松OR電源結(jié)合在一起,以提高系統(tǒng)可靠并防止反向?qū)ā?/div>
    的頭像 發(fā)表于 06-24 11:46 ?921次閱讀
    Analog Devices Inc. LTC4451 40V 7A理想二極管數(shù)據(jù)手冊(cè)

    MBSE工具+架構(gòu)建模:從效率提升到質(zhì)量賦能

    MBSE解決方案,以架構(gòu)建模為紐帶,工具鏈集成為支撐,幫助客戶有效應(yīng)對(duì)汽車電子系統(tǒng)日益增長(zhǎng)的復(fù)雜性挑戰(zhàn)。通過打破信息孤島、實(shí)現(xiàn)變更協(xié)同、提升工具鏈流暢度,加速開發(fā)進(jìn)程、降低返工成本、提
    的頭像 發(fā)表于 06-20 10:57 ?530次閱讀
    MBSE<b class='flag-5'>工具</b>+<b class='flag-5'>架構(gòu)</b>建模:從效率提升到質(zhì)量賦能

    掃描電機(jī)的PID恒速控制仿真及實(shí)驗(yàn)

    數(shù)學(xué)模型,并通過 Matlab Simulink 搭建了仿真模型。提出了使用增量式PID控制算法實(shí)現(xiàn)電機(jī)的恒速控制,并進(jìn)行了仿真,最后,利用STC89C52PID控制與BIDCM結(jié)合在一起,通過實(shí)驗(yàn)
    發(fā)表于 06-16 21:53

    OPA1S2385 具有集成低電平有效開關(guān)和緩沖器的、250MHz、CMOS跨阻放大器技術(shù)手冊(cè)

    OPA1S2384 和 OPA1S2385 (OPA1S238x) 高帶寬,場(chǎng)效應(yīng)晶體管 (FET) 輸入運(yùn)算放大器與個(gè)快速 SPST COMS 開關(guān)組合在一起,設(shè)計(jì)用于需要跟蹤和捕捉快速信號(hào)的應(yīng)用。
    的頭像 發(fā)表于 04-30 10:05 ?1039次閱讀
    OPA1S2385 具有集成低電平有效開關(guān)和緩沖器的、250MHz、CMOS跨阻放大器技術(shù)手冊(cè)

    電容屏和LCD屏哪個(gè)好?

    LCD屏幕是觸摸顯示技術(shù)的種,而電容屏是觸摸技術(shù)的種。它們本質(zhì)上是兩個(gè)獨(dú)立的技術(shù),但可以結(jié)合在一起使用。
    的頭像 發(fā)表于 04-14 13:57 ?5568次閱讀
    電容屏和LCD屏哪個(gè)好?

    Molex的Temp-Flex混合型帶狀電纜哪家專業(yè)?赫聯(lián)電子好嗎?

      Molex推出了Temp-Flex混合型帶狀電纜,把各種類型和尺寸的電線結(jié)合在一起,同時(shí)提供系列絕緣設(shè)計(jì)。   Temp-Flex混合型帶狀電纜的特點(diǎn)和優(yōu)點(diǎn)是定制的
    發(fā)表于 04-07 12:08