91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用Nsight Compute進(jìn)行高級(jí)內(nèi)核評(píng)測(cè)

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-13 09:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Nsight Compute 的這一版本擴(kuò)展了現(xiàn)有的重播模式,提供了范圍重播的高要求功能。 Range Replay 捕獲并重放分析應(yīng)用程序中 CUDA API 調(diào)用和內(nèi)核啟動(dòng)的完整范圍。度量與整個(gè)范圍相關(guān)聯(lián),而不是單個(gè)內(nèi)核。這允許該工具在不序列化的情況下執(zhí)行內(nèi)核,并支持出于正確性或性能原因而需要并發(fā)運(yùn)行的評(píng)測(cè)內(nèi)核。范圍由起點(diǎn)和終點(diǎn)標(biāo)記組成;并包括所有 CUDA API 調(diào)用和從任何 CPU 線程在這些標(biāo)記之間啟動(dòng)的內(nèi)核。

范圍標(biāo)記可以使用以下任一方法定義:

分析器啟動(dòng)/停止 API

poYBAGJWJZyAM4wPAAD3mEfYmy4917.png

NVTX 系列圖 1 。范圍回放可視化:捕獲范圍后,每個(gè)過程都會(huì)收集整個(gè)范圍的性能信息。

記憶分析

在 A100 上評(píng)測(cè)時(shí),內(nèi)存分析部分中的一個(gè)新二級(jí)緩存收回策略表可以幫助您了解各種 緩存逐出策略 的訪問次數(shù)和達(dá)到的命中率。在同一部分中,二級(jí)緩存表現(xiàn)在有一個(gè)新的 ECC 行,用于顯示通過在 GPU 上啟用硬件糾錯(cuò)代碼而創(chuàng)建的流量。

poYBAGJWJY2AX77tAAHDYYpGHeU478.png

圖 2 。內(nèi)存工作負(fù)載分析表的改進(jìn): ECC 和二級(jí)緩存逐出策略信息。

引導(dǎo)分析

Nsight Compute 現(xiàn)在通過在打開報(bào)表時(shí)在摘要和詳細(xì)信息頁面之間動(dòng)態(tài)選擇,可以更輕松地在多結(jié)果集合中選擇初始分析目標(biāo)。規(guī)則被擴(kuò)展以檢測(cè)非融合浮點(diǎn)指令作為優(yōu)化機(jī)會(huì)。最后,但并非最不重要的一點(diǎn)是,當(dāng)觸發(fā)未恢復(fù)的內(nèi)存訪問規(guī)則時(shí),它們會(huì)顯示一個(gè)包含五個(gè)最有價(jià)值實(shí)例的表,從而更容易在源頁面上檢查和解決它們。

pYYBAGJWJaiAFQ_AAAJeY82_dps659.png

圖 3 。打開多結(jié)果報(bào)告現(xiàn)在會(huì)顯示摘要頁面,允許您對(duì)結(jié)果進(jìn)行排序并決定優(yōu)化順序。

pYYBAGJWJbWAF8QkAAHXhz-C6j4326.png

圖 4 。這兩種未恢復(fù)的內(nèi)存訪問規(guī)則都以更簡(jiǎn)潔、更有序的格式呈現(xiàn)結(jié)果。

其他改進(jìn)

進(jìn)一步的改進(jìn)包括 Occupancy Calculator 自動(dòng)更新。源頁面中 Register Dependency 列還有一個(gè)新的“執(zhí)行的線程指令”度量和注冊(cè)名工具提示,以及 NVLink 更新。

關(guān)于作者

Chaitrali Joshi 是 NVIDIA 的產(chǎn)品營(yíng)銷經(jīng)理,專注于電信 5G 系統(tǒng)的設(shè)計(jì)和開發(fā)。她對(duì)網(wǎng)絡(luò)空間有著深入的了解,是移動(dòng)通信系統(tǒng)和云棧方面的專家。在英特爾之前,她是一名領(lǐng)導(dǎo),向開發(fā)人員宣傳電信技術(shù)和邊緣計(jì)算技術(shù)。她獲得了加利福尼亞大學(xué)計(jì)算機(jī)科學(xué)碩士學(xué)位,戴維斯專注于軟件定義的網(wǎng)絡(luò)和多址邊緣計(jì)算( MEC )。

Jackson Marusarz 是 NVIDIA 計(jì)算開發(fā)工具的產(chǎn)品經(jīng)理。他關(guān)注如何使用工具使所有開發(fā)人員能夠輕松高效地評(píng)測(cè)、調(diào)試和優(yōu)化 CUDA 代碼。杰克遜擁有 Boulder 科羅拉多大學(xué)計(jì)算機(jī)工程碩士學(xué)位。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5617

    瀏覽量

    109866
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5209

    瀏覽量

    135603
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4971

    瀏覽量

    74063
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    衷心感謝《瑞薩生態(tài)工作室》 ,授予我“優(yōu)秀評(píng)測(cè)獎(jiǎng)”!

    衷心感謝電子發(fā)燒友平臺(tái), 感謝瑞薩生態(tài)工作室授予我“優(yōu)秀評(píng)測(cè)獎(jiǎng)”! 這份榮譽(yù)不僅是對(duì)我評(píng)測(cè)工作的肯定,更是對(duì)我持續(xù)輸出專業(yè)、真實(shí)、有溫度內(nèi)容的莫大鼓勵(lì)。 一路走來,離不開平臺(tái)的支持與廣大讀者的關(guān)注
    發(fā)表于 01-19 15:56

    請(qǐng)問UART內(nèi)核在接收數(shù)據(jù)時(shí)有哪些具體操作?UART內(nèi)核在接收數(shù)據(jù)完成后會(huì)進(jìn)行哪些處理?

    UART內(nèi)核在接收數(shù)據(jù)時(shí)有哪些具體操作?UART內(nèi)核在接收數(shù)據(jù)完成后會(huì)進(jìn)行哪些處理?
    發(fā)表于 12-25 07:15

    將蜂鳥E203的內(nèi)核移植到fpga之后該怎么進(jìn)行二次開發(fā)呢?

    你們好!請(qǐng)問一下我將蜂鳥E203的內(nèi)核移植到fpga之后該怎么進(jìn)行二次開發(fā)呢?比如我想點(diǎn)亮板子上的led?驅(qū)動(dòng)攝像頭進(jìn)行圖像識(shí)別?這些該如何進(jìn)行呢?蜂鳥有類似freedom studi
    發(fā)表于 11-10 07:09

    在Ubuntu 虛擬機(jī)中使用verilator對(duì)蜂鳥E203內(nèi)核進(jìn)行仿真

    在Ubuntu 虛擬機(jī)中使用verilator對(duì)蜂鳥E203內(nèi)核進(jìn)行仿真 蜂鳥E203是一款基于RISC-V架構(gòu)的嵌入式處理器核,在開發(fā)中需要進(jìn)行仿真操作來驗(yàn)證其功能性。本教程將介紹如何利用
    發(fā)表于 10-27 08:22

    沒有開發(fā)板的情況下,在Vivado上進(jìn)行蜂鳥E203的基礎(chǔ)內(nèi)核的drystone跑分

    工程 這里我們主要也是參考了論壇中的這篇文章來創(chuàng)建了一個(gè)Vivado的工程,這樣我們一個(gè)可以方便閱讀內(nèi)核代碼,另一方面,這也是我們進(jìn)行仿真的第一步。 創(chuàng)建后整個(gè)內(nèi)核的架構(gòu)大概如下圖: 唯一有一點(diǎn)
    發(fā)表于 10-24 07:36

    蜂鳥E203內(nèi)核優(yōu)化方法

    對(duì)蜂鳥E203內(nèi)核進(jìn)行優(yōu)化可以考慮以下幾個(gè)方面: 編譯器優(yōu)化:使用適合蜂鳥E203的編譯器選項(xiàng)和指令集,優(yōu)化編譯器的選項(xiàng)和參數(shù),開啟對(duì)硬件的特定支持,比如使用-O2等優(yōu)化選項(xiàng),以提高代碼執(zhí)行效率
    發(fā)表于 10-21 07:55

    強(qiáng)實(shí)時(shí)運(yùn)動(dòng)控制內(nèi)核MotionRT750(一):驅(qū)動(dòng)安裝、內(nèi)核配置與使用

    強(qiáng)實(shí)時(shí)運(yùn)動(dòng)控制內(nèi)核MotionRT750的驅(qū)動(dòng)安裝與內(nèi)核配置
    的頭像 發(fā)表于 07-03 15:48 ?3724次閱讀
    強(qiáng)實(shí)時(shí)運(yùn)動(dòng)控制<b class='flag-5'>內(nèi)核</b>MotionRT750(一):驅(qū)動(dòng)安裝、<b class='flag-5'>內(nèi)核</b>配置與使用

    【米爾-RK3562開發(fā)板試用評(píng)測(cè)】EtherCat移植、編譯

    一、內(nèi)核編譯 上一篇把環(huán)境搭建好后,要重新配置一下內(nèi)核,并進(jìn)行單獨(dú)的編譯。 在單獨(dú)編譯 linux內(nèi)核 首先進(jìn)行配置
    發(fā)表于 05-28 14:49

    【RA-Eco-RA4M2開發(fā)板評(píng)測(cè)】2+uart方式

    【RA-Eco-RA4M2開發(fā)板評(píng)測(cè)】+uart方式前期,沒有仿真器可用,五一假期發(fā)展了一個(gè)能在e2 studio環(huán)境下使用的工具EZ-Cube3,使用EZ-Cube3選擇E2 lite工具進(jìn)行調(diào)試
    發(fā)表于 05-04 16:32

    Altium Designer PCB設(shè)計(jì)高級(jí)進(jìn)階

    對(duì)PCB設(shè)計(jì)的高級(jí)進(jìn)階的內(nèi)容進(jìn)行相關(guān)的介紹 純分享貼,有需要可以直接下載附件獲取完整資料! (如果內(nèi)容有幫助可以關(guān)注、點(diǎn)贊、評(píng)論支持一下哦~)
    發(fā)表于 04-27 16:40

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.60】運(yùn)算放大器參數(shù)解析與LTspice應(yīng)用仿真

    本期評(píng)測(cè)名單如下 jf_69121293、meiyaolei、jf_1137202360 請(qǐng)以上幾位大佬聯(lián)系工作人員(微信:elecfans_666)領(lǐng)取書籍進(jìn)行評(píng)測(cè),如在5個(gè)工作日內(nèi)未聯(lián)系
    發(fā)表于 04-21 16:18

    Arm Neoverse CMN S3 推動(dòng)Compute Express Link (CXL) 存儲(chǔ)創(chuàng)新

    高性能、可擴(kuò)展且高效的解決方案。Arm Neoverse CMN S3 能夠無縫管理一致性通信和內(nèi)存共享,是適合現(xiàn)代存儲(chǔ)架構(gòu)的變革性解決方案,其專為支持 Compute Express Link
    發(fā)表于 04-09 18:19 ?1294次閱讀
    Arm Neoverse CMN S3 推動(dòng)<b class='flag-5'>Compute</b> Express Link (CXL) 存儲(chǔ)創(chuàng)新

    請(qǐng)問如何使用UUU進(jìn)行獨(dú)立內(nèi)核構(gòu)建?

    我已經(jīng)成功地使用 UUU 安裝了一個(gè) yocto 構(gòu)建的內(nèi)核,我不知道如何使用它來安裝一個(gè)獨(dú)立內(nèi)核構(gòu)建.盡管關(guān)于如何使用它的信息不少 (https://github.com/nxp-imx
    發(fā)表于 04-04 06:07

    【米爾-STM32MP257開發(fā)板試用】——開箱評(píng)測(cè)

    1.5GHz+400MHz;可以用在車聯(lián)網(wǎng),工業(yè)控制領(lǐng)域,Cortex-A35可以跑linux系統(tǒng),Cortex-M33可以用來跑FreeRTOS系統(tǒng),兩個(gè)內(nèi)核之間可以通過共享內(nèi)存,硬件信號(hào)量來進(jìn)行信息
    發(fā)表于 03-31 12:23

    貿(mào)澤開售適用于AI和嵌入式應(yīng)用的 全新Raspberry Pi Compute Module 5

    2025 年 3 月 20 日 – 專注于推動(dòng)行業(yè)創(chuàng)新的知名新品引入 (NPI) 代理商?貿(mào)澤電子 (Mouser Electronics) 即日起供應(yīng)Raspberry Pi的全新Compute
    發(fā)表于 03-24 15:09 ?552次閱讀