91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA GPUs上命令緩沖區(qū)的應(yīng)用實(shí)踐

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:Wessam Bahnassi ? 2022-04-15 17:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這篇文章介紹了 NVIDIA GPUs 上命令緩沖區(qū)的最佳實(shí)踐。要在應(yīng)用程序中獲得高且一致的幀速率,請(qǐng)參閱所有高級(jí) API 性能提示。

命令緩沖區(qū)是從 CPU 發(fā)送要在 GPU 上執(zhí)行的命令的主要機(jī)制。通過遵循本文列出的最佳實(shí)踐,您可以通過最大化并行性、避免瓶頸和減少 GPU 上的空閑時(shí)間,在 CPU 和 GPU 上實(shí)現(xiàn)性能提升。

推薦

接受您負(fù)責(zé)實(shí)現(xiàn)和控制 GPU / CPU 并行性的事實(shí)。

向命令列表提交工作不會(huì)啟動(dòng) GPU 上的任何工作。

對(duì)ExecuteCommandList的調(diào)用最終在 GPU 上開始工作。

在多個(gè)線程和內(nèi)核上并行并均勻地將工作記錄到多個(gè)命令列表中。

錄制命令是一項(xiàng) CPU 密集型操作,沒有驅(qū)動(dòng)程序線程來拯救。

命令列表不是自由線程,因此并行工作提交意味著提交多個(gè)命令列表。

請(qǐng)注意,設(shè)置和重置命令列表會(huì)帶來成本。

為了高效地提交并行工作,您仍然需要合理數(shù)量的命令列表。

圍欄出于各種原因(多個(gè)命令隊(duì)列、拾取查詢結(jié)果等)強(qiáng)制拆分命令列表。

嘗試將目標(biāo)設(shè)定為每幀 5-10 次ExecuteCommandList調(diào)用,并進(jìn)行足夠的 GPU 工作,以隱藏每次ExecuteCommandList調(diào)用的操作系統(tǒng)調(diào)度開銷。

在上一次ExecuteCommandList調(diào)用之后,操作系統(tǒng)需要 50-80 微秒來安排命令列表。如果調(diào)用中的命令列表執(zhí)行速度快于此,則硬件隊(duì)列中存在氣泡。

使用GPUView檢查氣泡。

您可以將 3D 隊(duì)列上的圖形或計(jì)算工作與專用異步計(jì)算隊(duì)列上的計(jì)算工作重疊。

請(qǐng)記住,即使對(duì)于理論上可以與其他圖形或計(jì)算任務(wù)并行運(yùn)行的計(jì)算任務(wù), GPU 上并行工作的實(shí)際調(diào)度細(xì)節(jié)也可能不會(huì)產(chǎn)生期望的結(jié)果。

注意哪些異步計(jì)算和圖形工作負(fù)載可以一起調(diào)度。使用圍欄將正確的工作負(fù)載配對(duì)。

使用ExecuteIndirect靈活性最大限度地將 CPU 工作卸載到 GPU 并減少 CPU – GPU 同步點(diǎn)。

請(qǐng)使用ExecuteIndirect將場(chǎng)景消隱系統(tǒng)移植到 GPU 。

使用ExecuteIndirect計(jì)數(shù)緩沖區(qū)來控制命令的數(shù)量,而不是發(fā)出最大數(shù)量的命令并單獨(dú)預(yù)測(cè)未使用的命令。

NVIDIA 在ExecuteIndirect的Vulkan下為ExecuteIndirect提供附加功能

不推薦

幀描述符堆中的 CBV / SRV / UAV 描述符或 2K 采樣器不要超過 100 萬個(gè)。

不要阻止ExecuteCommandList呼叫。

ExecuteCommandList打電話可能會(huì)很貴。同時(shí),可以在其他線程上記錄新命令。

每個(gè)命令隊(duì)列都可以使用自己的線程來提交ExecuteCommandList。

不要只在幾個(gè)命令列表中記錄所有內(nèi)容或大型場(chǎng)景部分。這限制了您充分使用所有 CPU 內(nèi)核的能力。

此外,構(gòu)建幾個(gè)大的命令列表意味著您可能會(huì)發(fā)現(xiàn)很難讓 GPU 保持空閑狀態(tài)。

不要只在錄制完所有內(nèi)容后才提交。您可能會(huì)浪費(fèi)使 GPU 與其他命令列表的錄制并行工作的機(jī)會(huì)。

不要期望大量的列表重用。

在對(duì)象可見性等方面,每幀通常有許多更改。

后處理可能是一個(gè)例外。

不要經(jīng)常混合使用繪圖、分派和復(fù)制命令。

嘗試將所有繪制命令組合在一起,并將命令分派到一起,依此類推。

在同一隊(duì)列上頻繁混合不同類型的工作可能會(huì)導(dǎo)致管道排水。

不要?jiǎng)?chuàng)建太多線程或太多命令列表。

太多的線程超額訂閱 CPU 資源,而太多的命令列表可能會(huì)積累太多的開銷。

關(guān)于作者

Wessam Bahnassi 在 3D 引擎設(shè)計(jì)和優(yōu)化方面有 20 年的經(jīng)驗(yàn)。他最新發(fā)布的游戲包括《蝙蝠俠:阿卡姆騎士》和他自己的 120-FPS PSVR 太空射擊游戲超空。他是 ShaderX / GPU Pro / GPU Zen 系列書籍的撰稿人和章節(jié)編輯。他目前在 NVIDIA 的工作包括進(jìn)行優(yōu)化,并為該公司的幾個(gè)很酷的研究項(xiàng)目做出貢獻(xiàn)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11295

    瀏覽量

    225369
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5644

    瀏覽量

    109891
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    C語言的緩沖區(qū)(緩存)詳解

    緩沖區(qū)又稱為緩存,它是內(nèi)存空間的一部分。也就是說,在內(nèi)存空間中預(yù)留了一定的存儲(chǔ)空間,這些存儲(chǔ)空間用來緩沖輸入或輸出的數(shù)據(jù),這部分預(yù)留的空間就叫做緩沖區(qū)。   緩沖區(qū)根據(jù)其對(duì)應(yīng)的是輸入設(shè)
    發(fā)表于 01-14 07:30

    CW32L052串口的緩沖區(qū)機(jī)制

    默認(rèn)緩沖區(qū)配置 CW32L052的UART模塊支持硬件FIFO(通常為16字節(jié)),但HAL庫或用戶代碼需手動(dòng)管理接收緩沖區(qū)。若未顯式分配足夠大的軟件緩沖區(qū),可能導(dǎo)致數(shù)據(jù)溢出。 HAL庫緩沖區(qū)
    發(fā)表于 11-24 06:40

    飛凌嵌入式ElfBoard-標(biāo)準(zhǔn)IO接口之設(shè)置緩沖區(qū)

    件的stdio緩沖區(qū),應(yīng)以動(dòng)態(tài)或靜態(tài)的方式在堆中為該緩沖區(qū)分配一塊空間,而不是分配在棧的函數(shù)內(nèi)的自動(dòng)變量(局部變量)。如果buf等于NULL,那么會(huì)自動(dòng)分配一塊空間作為該文件的stdio緩沖
    發(fā)表于 11-14 09:02

    移植的lvgl,在運(yùn)行的時(shí)候,緩沖區(qū)無法釋放怎么解決?

    代碼在運(yùn)行的時(shí)候,只有l(wèi)vgl線程用于刷新,另一個(gè)線程只有一個(gè)串口打印。 當(dāng)運(yùn)行一段時(shí)間后,發(fā)現(xiàn),程序會(huì)在LVGl中,lv_refr.c這個(gè)庫下面第625行代碼, 在這一直判斷,看介紹說是在等待釋放緩沖區(qū),求大神給個(gè)思路
    發(fā)表于 09-09 07:28

    如何清除CYUSB3014的緩沖區(qū)數(shù)據(jù)?USB接口數(shù)據(jù)什么時(shí)候發(fā)送到電腦?

    、如何清除GPIF II接口處對(duì)應(yīng)的DMA BUFFER數(shù)據(jù)?當(dāng)標(biāo)志設(shè)置為滿/非滿狀態(tài)時(shí),一旦 DMA 緩沖區(qū)已滿,標(biāo)志信號(hào)就會(huì)指示它已滿。清除DMA緩沖區(qū)數(shù)據(jù)后,相應(yīng)的標(biāo)志信號(hào)會(huì)改變嗎?會(huì)不會(huì)變成非滿狀態(tài)
    發(fā)表于 07-18 07:58

    USB緩沖區(qū)中的內(nèi)容滿了之后,是否有標(biāo)志位進(jìn)行反饋?

    USB緩沖區(qū)中的內(nèi)容滿了之后,是否有標(biāo)志位進(jìn)行反饋。
    發(fā)表于 07-17 07:13

    請(qǐng)問USB緩沖區(qū)取數(shù)據(jù)可以多次取嗎?

    在使用USB軟件獲取數(shù)據(jù)是,下位機(jī)給我發(fā)送了13個(gè)32位數(shù)據(jù)到USB IN緩沖區(qū),為什么我調(diào)用API函數(shù)想要第一次取1個(gè)32位數(shù)據(jù),取完之后再取12位數(shù)據(jù),程序會(huì)卡死。
    發(fā)表于 07-16 08:12

    socket緩沖區(qū)溢出的原因?怎么解決?

    我在測(cè)試視頻通話時(shí) 發(fā)現(xiàn)丟幀特別嚴(yán)重 進(jìn)行了一些列的排查 發(fā)現(xiàn)socket本身似乎有問題 通過測(cè)試代碼發(fā)現(xiàn)了大量的緩沖區(qū)溢出我嘗試換了不同的服務(wù)器 我還分別測(cè)試了wifi網(wǎng)卡和4G網(wǎng)卡 全都這樣
    發(fā)表于 06-19 06:34

    解析RZ/N2L CANFD模塊的緩沖區(qū)機(jī)制(2)

    在工業(yè)自動(dòng)化、智能交通、機(jī)器人等領(lǐng)域,CANFD(CAN with Flexible Data-Rate)技術(shù)正逐步取代傳統(tǒng)CAN,以適應(yīng)更高的數(shù)據(jù)速率和更復(fù)雜的通信需求。本文將深入解析RZ/N2L CANFD模塊的緩沖區(qū)機(jī)制,幫助工程師更高效地管理CAN消息,提高系統(tǒng)性能。
    的頭像 發(fā)表于 05-19 14:13 ?1488次閱讀
    解析RZ/N2L CANFD模塊的<b class='flag-5'>緩沖區(qū)</b>機(jī)制(2)

    解析RZ/N2L CANFD模塊的緩沖區(qū)機(jī)制(1)

    在工業(yè)自動(dòng)化、智能交通、機(jī)器人等領(lǐng)域,CANFD(CAN with Flexible Data-Rate)技術(shù)正逐步取代傳統(tǒng)CAN,以適應(yīng)更高的數(shù)據(jù)速率和更復(fù)雜的通信需求。本文將深入解析RZ/N2L CANFD模塊的緩沖區(qū)機(jī)制,幫助工程師更高效地管理CAN消息,提高系統(tǒng)性能。
    的頭像 發(fā)表于 05-19 14:10 ?1305次閱讀
    解析RZ/N2L CANFD模塊的<b class='flag-5'>緩沖區(qū)</b>機(jī)制(1)

    FX3 Socket緩沖區(qū)切換的最大時(shí)間是多少?

    FX3_Programmers_Manual 文檔的第 10 章提到“每個(gè)緩沖區(qū)緩沖區(qū)切換開銷為 550 - 900 ns”。 Getting_Started_with_EZ-USB_FX3 文檔
    發(fā)表于 05-16 07:51

    在傳輸DMA通道中的所有緩沖區(qū)后,DMA標(biāo)志(就緒和部分)被卡住了是怎么回事?

    2 次傳輸,再次卡住的時(shí)間更短,然后順利傳輸數(shù)據(jù)。 Buffers working until they get stuck緩沖器在卡住之前一直在工作 前兩個(gè)緩沖區(qū)的標(biāo)志 A()和 B(下),然后
    發(fā)表于 05-16 07:18

    求助,關(guān)于3014的緩沖區(qū)設(shè)置疑問求解

    不夠?qū)е聄gb24 1080p@60fps為靜態(tài)? 緩沖區(qū)的大小和數(shù)量是否需要對(duì)應(yīng)? 因?yàn)?20p@60fps的緩沖區(qū)的大小和數(shù)量為34kb,3,是可以出圖且動(dòng)態(tài),但圖像依然是顛倒的。我將
    發(fā)表于 05-06 13:42

    請(qǐng)問如何在Linux中使用幀緩沖區(qū)更新epdc顯示?

    我正在使用帶有 epdc 顯示子卡 (IMXEBOOKDC5) 的 IMX8ULP EVK。使用 Linux 映像引導(dǎo)后,epdc 顯示無法使用幀緩沖區(qū)進(jìn)行更新。當(dāng)檢查顯示 pmic 的電源使能引腳
    發(fā)表于 04-01 06:41

    FreeRTOS進(jìn)階使用之流緩沖區(qū):高效處理字節(jié)流的秘密武器

    在嵌入式開發(fā)中,流緩沖區(qū)(Stream Buffer)是FreeRTOS中用于高效處理字節(jié)流數(shù)據(jù)傳輸?shù)暮诵臋C(jī)制,尤其適合任務(wù)間或中斷與任務(wù)間的連續(xù)數(shù)據(jù)傳輸場(chǎng)景(如串口通信、網(wǎng)絡(luò)數(shù)據(jù)流等)。本文將深入
    發(fā)表于 03-24 11:37