91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

淺談GPU: 衡量計(jì)算效能的正確姿勢(shì)(3)

Linux閱碼場(chǎng) ? 來(lái)源:面包板社區(qū) ? 作者:Linux閱碼場(chǎng) ? 2021-04-16 11:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

上期我們講了現(xiàn)代計(jì)算機(jī)體系結(jié)構(gòu)通過(guò)處理器(CPU/GPU)和內(nèi)存的交互來(lái)執(zhí)行計(jì)算程序,處理輸入數(shù)據(jù),并輸出結(jié)果。實(shí)際上,由于CPU是高速器件,而內(nèi)存訪問(wèn)速度往往受限(如圖所示,CPU和內(nèi)存的性能差距從上個(gè)世紀(jì)80年代開(kāi)始,不斷拉大),為解決速度匹配的問(wèn)題,在CPU和內(nèi)存之間設(shè)置了高速緩沖存儲(chǔ)器Cache。

04180576-9e23-11eb-8b86-12bb97331649.png

而且Cache往往分幾個(gè)層級(jí),與內(nèi)存以及其它外部存儲(chǔ)器共同構(gòu)成計(jì)算機(jī)系統(tǒng)的存儲(chǔ)器層次結(jié)構(gòu)(Memory Hierarchy),如下圖所示,使得整個(gè)系統(tǒng)在性能,成本和制造工藝達(dá)到平衡。

045341ae-9e23-11eb-8b86-12bb97331649.jpg

我們可以看到,各個(gè)存儲(chǔ)層次在訪問(wèn)時(shí)間上存在數(shù)量級(jí)別的差異,訪問(wèn)速度越快,單位制造成本越高,容量越小。在這里,我們并不打算討論Cache具體設(shè)計(jì)和實(shí)現(xiàn),只是希望針對(duì)Cache及其命中率對(duì)性能的影響有一個(gè)直觀的認(rèn)識(shí)。為了簡(jiǎn)化討論問(wèn)題的復(fù)雜性,我們這里做如下假設(shè)。

整個(gè)流水線分為5個(gè)階段,分別為《1》取指、《2》譯碼、《3》運(yùn)算執(zhí)行、《4》訪存讀寫(xiě) (可選)、《5》寫(xiě)回結(jié)果至寄存器。

這里只考慮一級(jí)Cache,而且指令、數(shù)據(jù)共享L1 Cache。Cache命中的情況下,每個(gè)階段都是1個(gè)時(shí)鐘(cycle),而cache不命中的情況,階段《1》,《5》各耗時(shí)100個(gè)時(shí)鐘(cycles)。

訪存指令占所有指令1/3。下面我們來(lái)分別計(jì)算3種情況下的CPI。

= 100 cycles + 3 * (1 cycle) + ((1 cycle * 2/3) + (100 cycles * 1/3))

= 137 cycles.

= (1 cycle * 0.9 + 100 cycles * (1 - 0.9)) + (3 cycles) + ((1 cycle * (2/3 + 0.9/3)) + (100cycles * (1 - 0.9) * 1/3))

= 18.2 cycles.

= (1 cycle * (0.99) + 100 cycles * (1 - 0.99)) + (3 cycles) + ((1 cycle * (2/3 + 0.99/3)) + (100 cycles * (1 - 0.99) * 1/3))

= 6.32 cycles.

Cache完全缺失。

CPI = 《1》階段的時(shí)鐘+《2, 3, 5》階段的時(shí)鐘+《4》階段的時(shí)鐘

Cache命中率達(dá)到90%。

CPI = 《1》階段的時(shí)鐘+《2, 3, 5》階段的時(shí)鐘+《4》階段的時(shí)鐘

Cache命中率達(dá)到99%

CPI = 《1》階段的時(shí)鐘+《2, 3, 5》階段的時(shí)鐘+《4》階段的時(shí)鐘另外在上期文章里我們也提到同樣32b數(shù)據(jù)的訪問(wèn),DRAM的耗能是SRAM的百倍(640pJ vs 5pJ)。完全可見(jiàn)正確配置Cache對(duì)高能效高性能計(jì)算的重要作用。

值得一提的是,由于CPU和GPU設(shè)計(jì)面向的差異,他們的Memory Hierarchy存在明顯的區(qū)別,一個(gè)典型的對(duì)比如下圖,可以看到GPU的Memeory Hierarchy設(shè)計(jì)的時(shí)候更注意帶寬或者說(shuō)Throughput,而相比之下對(duì)Latency就沒(méi)有CPU重視, GPU Cache容量也相對(duì)比較小。

045d4bae-9e23-11eb-8b86-12bb97331649.png

那我們不禁要問(wèn),GPU的Latency指標(biāo)這么糟糕,按照我們先前的計(jì)算,Cache不命中的后果是不是很?chē)?yán)重?不過(guò)不要擔(dān)心,CPU的Cache不命中可能會(huì)導(dǎo)致叫停流水線的嚴(yán)重后果,而對(duì)GPU,只要計(jì)算任務(wù)量足夠,它的硬件調(diào)度器(Hardware Scheduler)能夠自動(dòng)在不同的任務(wù)間無(wú)縫切換,來(lái)掩藏特定任務(wù)訪問(wèn)memory帶來(lái)的延遲。關(guān)于GPU的Latency hiding,值得大書(shū)特書(shū),我們以后會(huì)詳細(xì)討論。
編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11281

    瀏覽量

    225093
  • Cache
    +關(guān)注

    關(guān)注

    0

    文章

    130

    瀏覽量

    29714

原文標(biāo)題:GPU: 衡量計(jì)算效能的正確姿勢(shì)(3)

文章出處:【微信號(hào):LinuxDev,微信公眾號(hào):Linux閱碼場(chǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    成功案例:象帝先計(jì)算技術(shù)與Imagination合作——面向現(xiàn)代圖形與計(jì)算工作負(fù)載的專(zhuān)業(yè)GPU

    為專(zhuān)業(yè)計(jì)算設(shè)計(jì)桌面GPU桌面GPU不僅用于游戲,還能加速?gòu)膶?zhuān)業(yè)可視化、高級(jí)模擬到數(shù)據(jù)密集型計(jì)算在內(nèi)的多種現(xiàn)代工作負(fù)載。專(zhuān)業(yè)用戶需要能在多種應(yīng)用場(chǎng)景中穩(wěn)定運(yùn)行的高性能、多功能平臺(tái)。構(gòu)建桌
    的頭像 發(fā)表于 03-09 09:17 ?159次閱讀
    成功案例:象帝先<b class='flag-5'>計(jì)算</b>技術(shù)與Imagination合作——面向現(xiàn)代圖形與<b class='flag-5'>計(jì)算</b>工作負(fù)載的專(zhuān)業(yè)<b class='flag-5'>GPU</b>

    炎核開(kāi)源開(kāi)放平臺(tái)上架推出OpenSparseBlas高性能稀疏計(jì)算庫(kù)

    在科學(xué)計(jì)算與工程仿真領(lǐng)域,高效處理大規(guī)模稀疏矩陣運(yùn)算是提升整體計(jì)算效能的關(guān)鍵。為此,我們?cè)谘缀碎_(kāi)源開(kāi)放平臺(tái)上架推出 OpenSparseBlas——一個(gè)專(zhuān)為稀疏矩陣/向量計(jì)算而打造的高
    的頭像 發(fā)表于 12-15 15:18 ?649次閱讀

    絕緣子漏電起痕試驗(yàn)儀泄漏電流信號(hào)的小波變換分析及電弧能量計(jì)算

    手段;而基于該分析結(jié)果的電弧能量計(jì)算,則能量化電弧對(duì)絕緣子性能的影響,兩者共同為試驗(yàn)結(jié)果的精準(zhǔn)解讀與絕緣子耐痕性能評(píng)估提供科學(xué)依據(jù)。? 泄漏電流信號(hào)的小波變換分析,核心在于對(duì)信號(hào)的“分層解析與特征提取”。試
    的頭像 發(fā)表于 10-15 09:43 ?382次閱讀
    絕緣子漏電起痕試驗(yàn)儀泄漏電流信號(hào)的小波變換分析及電弧能<b class='flag-5'>量計(jì)算</b>

    別讓 GPU 故障拖后腿,捷智算GPU維修室來(lái)救場(chǎng)!

    在AI浪潮洶涌的當(dāng)下,GPU已然成為眾多企業(yè)與科研機(jī)構(gòu)的核心生產(chǎn)力。從深度學(xué)習(xí)模型訓(xùn)練,到影視渲染、復(fù)雜科學(xué)計(jì)算,GPU憑借強(qiáng)大并行計(jì)算能力,極大提升運(yùn)算效率。然而,就像高速運(yùn)轉(zhuǎn)的精密
    的頭像 發(fā)表于 07-17 18:56 ?1151次閱讀
    別讓 <b class='flag-5'>GPU</b> 故障拖后腿,捷智算<b class='flag-5'>GPU</b>維修室來(lái)救場(chǎng)!

    如何選擇合適的電池電量計(jì)

    最優(yōu)的電池性能依賴(lài)于驅(qū)動(dòng)電量計(jì)算法的高精度的電池模型?;ㄙM(fèi)大量時(shí)間進(jìn)行定制特征分析能夠獲得高精度電池性能、最大程度減小電池電量的(SOC)誤差,以及正確預(yù)測(cè)電池何時(shí)接近空電量。
    發(fā)表于 07-10 14:23 ?0次下載

    如何計(jì)算孔板流量計(jì)和平衡流量計(jì)的流量?計(jì)算公式一樣嗎?

    平衡流量計(jì)與孔板流量計(jì)作為差壓式流量計(jì)的典型代表,雖均基于壓力差與流量的數(shù)學(xué)關(guān)系進(jìn)行計(jì)算,但是平衡流量計(jì)
    的頭像 發(fā)表于 07-09 13:54 ?892次閱讀
    如何<b class='flag-5'>計(jì)算</b>孔板流<b class='flag-5'>量計(jì)</b>和平衡流<b class='flag-5'>量計(jì)</b>的流量?<b class='flag-5'>計(jì)算</b>公式一樣嗎?

    GPU架構(gòu)深度解析

    GPU架構(gòu)深度解析從圖形處理到通用計(jì)算的進(jìn)化之路圖形處理單元(GPU),作為現(xiàn)代計(jì)算機(jī)中不可或缺的一部分,已經(jīng)從最初的圖形渲染專(zhuān)用處理器,發(fā)展成為強(qiáng)大的并行
    的頭像 發(fā)表于 05-30 10:36 ?1872次閱讀
    <b class='flag-5'>GPU</b>架構(gòu)深度解析

    自己動(dòng)手繞線圈電感詳細(xì)計(jì)算公式(建議收藏?。?/a>

    線圈高度W----線圈寬度單位分別為毫米和mH??招木€圈電感量計(jì)算公式:l=(0.01*D*N*N)/(L/D+0.44)線圈電感量l單位:微亨線圈直徑D單位:cm線圈匝數(shù)N單位:匝線圈長(zhǎng)度L單位:cm 獲取完整文檔資料可下載附件哦!?。?! 如果內(nèi)容有幫助可以關(guān)注、點(diǎn)贊、評(píng)論支持一下哦~
    發(fā)表于 05-28 16:57

    求助,關(guān)于FX3使用SDK自帶回環(huán)固遇到的問(wèn)題求解

    和數(shù)據(jù)量計(jì)算速度,這樣的測(cè)試是否準(zhǔn)確?我沒(méi)到的速度只是19MB多點(diǎn)為什么?剛開(kāi)始我懷疑是我的電路板布線的問(wèn)題,所以我找了個(gè)開(kāi)發(fā)板,速度仍然是19MB多點(diǎn)?所以我再想這樣的測(cè)試方法本身是否可行?因?yàn)槲业拈_(kāi)發(fā)板本身的FPGA壞了,在這種情況下只能使用回環(huán)沒(méi)速了吧
    發(fā)表于 05-08 07:05

    變壓器速查速算手冊(cè)(完整版)

    資料介紹本文較詳細(xì)而系統(tǒng)地介紹了變壓器的計(jì)算公式和計(jì)算方法。內(nèi)容包括:變壓器基本計(jì)算及試驗(yàn)計(jì)算,變壓器運(yùn)行和節(jié)能計(jì)算,變壓器容
    發(fā)表于 04-30 17:40

    常見(jiàn)傳動(dòng)機(jī)構(gòu)負(fù)載慣量計(jì)算方法及實(shí)例

    傳動(dòng)機(jī)構(gòu)負(fù)載慣量計(jì)算方法 1. 絲桿傳動(dòng)機(jī)構(gòu) 絲桿傳動(dòng)機(jī)構(gòu)廣泛應(yīng)用于精密定位系統(tǒng)中。其負(fù)載慣量的計(jì)算需要考慮負(fù)載質(zhì)量、絲桿導(dǎo)程、絲桿直徑以及摩擦系數(shù)等因素。 假設(shè)負(fù)載質(zhì)量為m,絲桿導(dǎo)程為Pb,絲桿直徑為Db,負(fù)載移動(dòng)速度為
    的頭像 發(fā)表于 04-23 17:38 ?4644次閱讀
    常見(jiàn)傳動(dòng)機(jī)構(gòu)負(fù)載慣<b class='flag-5'>量計(jì)算</b>方法及實(shí)例

    淺談電磁流量計(jì)的常見(jiàn)故障及排除方法

    電磁流量計(jì)作為常用的流量測(cè)量?jī)x表,在使用過(guò)程中可能會(huì)遇到各種故障。以下是對(duì)電磁流量計(jì)常見(jiàn)故障及排除方法的淺談: 一、儀表顯示最小或無(wú)顯示 當(dāng)電磁流量計(jì)顯示最小或無(wú)顯示時(shí),通常意味著傳感
    的頭像 發(fā)表于 04-20 17:56 ?1986次閱讀

    如何選擇合適的水位流量計(jì)算公式?

    在水利工程中,量水堰計(jì)通過(guò)測(cè)量堰上水頭(h)計(jì)算流量(Q),但不同堰型的流量公式差異顯著。錯(cuò)誤選擇公式可能導(dǎo)致流量估算偏差高達(dá)30%以上。南京峟思工程儀器將給大家系統(tǒng)解析直角三角堰、矩形堰、梯形堰
    的頭像 發(fā)表于 04-02 16:32 ?1580次閱讀
    如何選擇合適的水位流<b class='flag-5'>量計(jì)算</b>公式?

    電容電量計(jì)算

    發(fā)表于 03-13 10:32

    電容電量計(jì)算

    發(fā)表于 03-11 11:41