91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用MPI來跨多個(gè)GPU縮放應(yīng)用

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-27 17:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這是 標(biāo)準(zhǔn)并行編程 系列的第三篇文章,講述在標(biāo)準(zhǔn)語言中使用并行性來加速計(jì)算的優(yōu)點(diǎn)。

用標(biāo)準(zhǔn)語言并行性開發(fā)加速代碼

多個(gè) GPU 標(biāo)準(zhǔn) C ++并行編程,第 1 部分

在第 1 部分中,我們解釋了:

C ++并行編程的基礎(chǔ)

格子玻爾茲曼方法( LBM )

采取了第一步來重構(gòu) PalabOS 庫,以使用標(biāo)準(zhǔn) C ++高效地運(yùn)行 GPU 。

在這篇文章中,我們繼續(xù)優(yōu)化 ISOC ++算法的性能,然后使用 MPI 來跨多個(gè) GPU 來縮放應(yīng)用。

爭(zhēng)取最佳性能

期望 CPU 到 GPU 端口的性能低于專用 HPC 代碼的性能似乎很自然。畢竟,您受到軟件體系結(jié)構(gòu)、已建立的 API 的限制,以及考慮用戶群期望的復(fù)雜額外功能的需要。不僅如此, C ++標(biāo)準(zhǔn)并行化的簡(jiǎn)單編程模型允許比專用語言(如 CUDA )更少的手動(dòng)微調(diào)。

在現(xiàn)實(shí)中,通??梢詫⑦@種性能損失控制和限制到可以忽略不計(jì)的程度。關(guān)鍵是分析各個(gè)代碼部分的性能指標(biāo),消除不能反映軟件框架實(shí)際需求的性能瓶頸。

一個(gè)好的做法是為數(shù)值算法的核心組件維護(hù)一個(gè)單獨(dú)的原理證明代碼。這種方法的性能可以更自由地優(yōu)化,并與完整、復(fù)雜的軟件框架(如 Palabos 中的 STLBM library )進(jìn)行比較。此外,像nvprof這樣支持 GPU 的探查器可以有效地突出性能瓶頸的根源。

以下建議重點(diǎn)介紹了典型的性能問題及其解決方案:

不要觸摸 CPU 上的數(shù)據(jù)

了解你的算法

建立績(jī)效模型

不要觸摸 CPU 上的數(shù)據(jù)

性能損失的一個(gè)常見原因是 CPU 和 GPU 內(nèi)存之間的隱藏?cái)?shù)據(jù)傳輸,這可能非常慢。在 CUDA 統(tǒng)一內(nèi)存模型中,每當(dāng)您從 CPU 訪問 GPU 數(shù)據(jù)時(shí),就會(huì)發(fā)生這種類型的傳輸。觸摸單個(gè)字節(jié)的數(shù)據(jù)可能會(huì)導(dǎo)致災(zāi)難性的性能損失,因?yàn)檎麄€(gè)內(nèi)存頁都是一次性傳輸?shù)摹?/p>

顯而易見的解決方案是盡可能只在 GPU 上操作數(shù)據(jù)。這需要仔細(xì)搜索代碼中所有對(duì)數(shù)據(jù)的訪問,然后將它們包裝成并行算法調(diào)用。雖然這有點(diǎn)健壯,但即使是最簡(jiǎn)單的操作也需要這個(gè)過程。

顯而易見的地方是數(shù)據(jù)統(tǒng)計(jì)的后處理操作或中間評(píng)估。另一個(gè)經(jīng)典的性能瓶頸出現(xiàn)在 MPI 通信層,因?yàn)槟仨氂涀≡?GPU 上執(zhí)行數(shù)據(jù)打包和解包操作。

在 GPU 上表達(dá)算法說起來容易做起來難,因?yàn)閒or_each和transform_reduce的形式主義主要適用于結(jié)構(gòu)均勻的內(nèi)存訪問。

在不規(guī)則數(shù)據(jù)結(jié)構(gòu)的情況下,使用這兩種算法避免競(jìng)爭(zhēng)條件并保證合并的內(nèi)存訪問是痛苦的。在這種情況下,您應(yīng)該繼續(xù)執(zhí)行下一個(gè)建議,熟悉 C ++中提供的并行算法的家族。

了解你的算法

到目前為止,并行 STL 似乎只不過是一種用奇特的函數(shù)語法表達(dá)parallel for loops的方式。實(shí)際上, STL 提供了for_each和transform_reduce之外的大量算法,這些算法對(duì)表達(dá)數(shù)值方法非常有用,包括排序和搜索算法。

exclusive_scan算法計(jì)算累積和,值得特別提及,因?yàn)樗蛔C明通常對(duì)非結(jié)構(gòu)化數(shù)據(jù)的重新索引操作非常有用。例如,考慮 MPI 通信的打包算法,其中預(yù)先由每個(gè)網(wǎng)格節(jié)點(diǎn)貢獻(xiàn)給通信緩沖器的變量的數(shù)目是未知的。在這種情況下,需要線程之間的全局通信來確定每個(gè)網(wǎng)格節(jié)點(diǎn)寫入緩沖區(qū)的索引。

下面的代碼示例顯示了如何使用并行算法在 GPU 上以良好的并行效率解決此類問題:

// Step 1: compute the number of variables contributed by every node.

int* numValuesPtr = allocateMemory(numberOfCells);

for_each(execution::par_unseq, numValuesPtr, numValuesPtrl + numberOfCells, [=](int& numValues)

{ int i = &numValues - numValuesPtr; // Compute number of variables contributed by current node. numValues = computeNumValues(i);

} );

// 2. Compute the buffer index for every node.

int* indexPtr = allocateMemory(numberOfCells);

exclusive_scan(execution::par_unseq, numValuesPtr, numValuesPtr + numberOfCells, indexPtr, 0);

// 3. Pack the data into the buffer.

for_each(execution::par_unseq, indexPtr, indexPtr + numberOfCells, [=](int& index)

{ int i = &index - indexPtr; packCellData(i, index);

} );

這個(gè)例子讓你享受到基于算法的 GPU 編程方法的表達(dá)能力:代碼不需要同步指令或任何其他低級(jí)構(gòu)造。

建立績(jī)效模型

性能模型通過瓶頸分析為算法的性能建立上限。這通常將峰值處理器性能(以觸發(fā)器為單位)和峰值內(nèi)存帶寬視為限制硬件特性的主要因素。

正如在上一篇文章的示例:Lattice Boltzmann 軟件 Palabos 部分中所討論的,LBM 代碼的計(jì)算與內(nèi)存訪問的比率較低,并且在現(xiàn)代 GPU 上完全受內(nèi)存限制。也就是說,至少如果您使用單精度算術(shù)或?yàn)殡p精度算術(shù)優(yōu)化的 GPU。

峰值性能簡(jiǎn)單地表示為 GPU 的內(nèi)存帶寬與代碼中執(zhí)行的內(nèi)存訪問次數(shù)之間的比率。直接的結(jié)果是,將 LBM 代碼從雙精度算術(shù)轉(zhuǎn)換為單精度算術(shù)將使性能加倍。

圖 1 顯示了在 NVIDIA A100 ( 40 GB ) GPU 上獲得的 Palabos GPU 端口在單精度和雙精度浮點(diǎn)上的性能。

poYBAGJpCC2AfDpDAAATAbRc9a4263.png

圖 1 。 3D 蓋驅(qū)動(dòng)腔體的 Palabos 性能( 6003網(wǎng)格節(jié)點(diǎn))在 A100 ( 40 GB ) GPU 上以單精度和雙精度運(yùn)行。型號(hào): TRT , D3Q19

執(zhí)行的測(cè)試用例是湍流狀態(tài)下蓋驅(qū)動(dòng)腔中的流動(dòng),具有簡(jiǎn)單的立方幾何結(jié)構(gòu)。然而,這種情況包括邊界條件,并表現(xiàn)出復(fù)雜的流動(dòng)模式。性能以每秒百萬次晶格節(jié)點(diǎn)更新( MLUPS ,越多越好)來衡量,并與假設(shè) GPU 內(nèi)存在峰值容量下被利用的理論峰值進(jìn)行比較。

該代碼在雙精度下達(dá)到 73% 的峰值性能,在單精度下達(dá)到 74% 。這種性能指標(biāo)在 LB 模型的最新實(shí)現(xiàn)中很常見,與所使用的語言或庫無關(guān)。

盡管一些實(shí)現(xiàn)可能會(huì)增加幾個(gè)百分點(diǎn),并達(dá)到接近 80% 的值,但很明顯,我們正在接近性能模型隱含的硬限制。從大的角度來看,代碼的單 – GPU 性能是最好的。

重用現(xiàn)有的 MPI 后端以獲得多 GPU 代碼

當(dāng) C ++并行算法無縫地集成到現(xiàn)有的軟件項(xiàng)目中以加速關(guān)鍵代碼部分時(shí),沒有什么能阻止您重用項(xiàng)目的通信后端以達(dá)到多 GPU 性能。但是,您需要密切關(guān)注通信緩沖區(qū),確保它不會(huì)繞過 CPU 內(nèi)存,這將導(dǎo)致代價(jià)高昂的頁面錯(cuò)誤。

我們首次嘗試在多個(gè) GPU 上運(yùn)行帶有 GPU 端口的 Palabos 版本,雖然產(chǎn)生了技術(shù)上正確的結(jié)果,但沒有表現(xiàn)出可接受的性能。不是加速,而是從 1 切換到 2 GPU 將速度降低了一個(gè)數(shù)量級(jí)。這個(gè)問題可以追溯到通信數(shù)據(jù)的打包和解包。在最初的后端,這是在 CPU 上執(zhí)行的,并且是在 CPU 內(nèi)存中的其他不必要數(shù)據(jù)訪問實(shí)例上執(zhí)行的,例如調(diào)整通信緩沖區(qū)的大小。

這些問題可以在探查器的幫助下發(fā)現(xiàn)。分析器會(huì)突出顯示統(tǒng)一內(nèi)存中出現(xiàn)的所有頁面錯(cuò)誤,并通過將相應(yīng)的代碼部分移動(dòng)到并行算法來修復(fù)。“了解你的算法”部分解釋了如果數(shù)據(jù)遵循不規(guī)則模式,如何打包和解包通信緩沖區(qū)。

在這一點(diǎn)上,使用標(biāo)準(zhǔn)的 C ++,除了 MPI 以外沒有任何擴(kuò)展,您可以獲得一個(gè)混合 CPU / GPU 軟件項(xiàng)目,具有最先進(jìn)的性能,在單 G GPU 和多 GPU 上的并行性能。

不幸的是,由于語言規(guī)范和相應(yīng)的 GPU 實(shí)現(xiàn)的當(dāng)前限制,多 GPU 性能仍然低于預(yù)期。在未來的 C ++技術(shù)標(biāo)準(zhǔn)并行化技術(shù)的改進(jìn)中,我們將基于 C ++標(biāo)準(zhǔn)之外的技術(shù)提供一些解決方案。

協(xié)調(diào)多 CPU 和多 GPU 代碼的執(zhí)行

雖然這篇文章主要關(guān)注混合 CPU 和 GPU 編程,但我們無法避免在 CPU 部分討論混合并行性( MPI 或多線程)問題。

例如, Palabos 的原始版本是非混合的,它使用 MPI 通信層在 CPU 的核心之間以及整個(gè)網(wǎng)絡(luò)中分配工作。移植到 GPU 后,生成的多 CPU 和多 GPU 代碼會(huì)自動(dòng)將單個(gè) CPU 內(nèi)核與每個(gè) MPI 任務(wù)中的完整 GPU 進(jìn)行分組,使 CPU 的動(dòng)力相對(duì)不足。

每當(dāng)需要或方便將計(jì)算密集型任務(wù)保留在 CPU 上時(shí),這會(huì)導(dǎo)致性能瓶頸。在流體動(dòng)力學(xué)中,在預(yù)處理階段(如幾何體處理或網(wǎng)格生成)通常會(huì)出現(xiàn)這種情況。

顯而易見的解決方案是使用多線程從 MPI 任務(wù)中訪問多個(gè) CPU 內(nèi)核。這些線程的共享內(nèi)存空間可以通過 CUDA 統(tǒng)一內(nèi)存形式直接與 GPU 共享。

然而, C ++并行算法不能被重用以服務(wù)于 GPU 和多核 CPU 執(zhí)行的兩個(gè)目的。這是因?yàn)?C ++不允許從語言內(nèi)選擇并行算法的目標(biāo)平臺(tái)。

雖然 C ++線程確實(shí)提供了一種解決這個(gè)問題的方法,但我們發(fā)現(xiàn) OpenMP 提供了最方便和最不受干擾的解決方案。在這種情況下,for loop的 OpenMP 注釋足以將分配給當(dāng)前 MPI 任務(wù)的網(wǎng)格部分分布到多個(gè)線程上。

通過固定內(nèi)存進(jìn)行通信

在當(dāng)前版本的 HPC SDK 中, CUDA 統(tǒng)一內(nèi)存模型與 MPI 相結(jié)合,表現(xiàn)出另一個(gè)性能問題。

由于 MPI 通信層希望數(shù)據(jù)具有固定的硬件地址(所謂的pinned memory),因此托管內(nèi)存區(qū)域中的任何緩沖區(qū)都會(huì)首先隱式復(fù)制到主機(jī) CPU 上的固定內(nèi)存緩沖區(qū)中。由于 GPU 和 CPU 之間的傳輸,此操作最終可能會(huì)非常昂貴。

因此,通信緩沖區(qū)應(yīng)明確固定到 GPU 內(nèi)存地址。對(duì)于nvc++ compiler,這是通過使用cudaMalloc分配通信緩沖區(qū)來實(shí)現(xiàn)的:

// Allocate the communication buffer

// vector《double》 buffer(N);

// double* buffer = buffer.data();

double* buffer; cudaMalloc((void**)&buffer, N * sizeof(double));

for_each(buffer, buffer + N, … // Proceed with data packing

另一種解決方案是用推力庫中的thrust::device_vector替換 STL 向量,默認(rèn)情況下,推力庫使用固定 GPU 內(nèi)存。

在不久的將來, HPC SDK 將為用戶更高效、更自動(dòng)地處理這些情況。這樣他們就不必伸手去拿cudaMalloc或thrust::device_vector。所以,請(qǐng)繼續(xù)關(guān)注!

在本文列出的各種改進(jìn)之后, Palabos 庫在一個(gè)帶有四個(gè) GPU 的 DGX A100 ( 40-GB )工作站上進(jìn)行了測(cè)試,再次用于蓋驅(qū)動(dòng)型腔的基準(zhǔn)情況。獲得的性能如圖 2 所示,并與 48 核 Xeon Gold 6240R CPU 上獲得的性能進(jìn)行了比較:

pYYBAGJpCC6ASfHwAAATabMyqSc445.png

圖 2 。 3D 蓋驅(qū)動(dòng)腔體的 Palabos 性能( 6003網(wǎng)格節(jié)點(diǎn))在 48 核 Xeon Gold 6240R CPU 和 DGX A100 ( 40 GB )工作站上,一次使用一個(gè) GPU ,一次使用四個(gè) GPU 。型號(hào): TRT , D3Q19 ,單精度

對(duì)于 Xeon Gold , Palabos 的原始實(shí)現(xiàn)被證明更高效,并用于 48 個(gè) MPI 任務(wù),而單 GPU 和四 GPU 執(zhí)行使用并行算法后端,并使用nvc++編譯。

性能數(shù)據(jù)顯示,與單次執(zhí)行 GPU 相比, 4- GPU 執(zhí)行的速度提高了 3.27 倍。這相當(dāng)于一個(gè)非常令人滿意的并行效率 82% ,在一個(gè)強(qiáng)大的擴(kuò)展機(jī)制,在兩個(gè)執(zhí)行相同的總域大小。在弱擴(kuò)展情況下,使用 4 倍于 4- GPU 執(zhí)行的問題大小,加速比增加到 3.72 (效率 93% )。

圖 2 還顯示,當(dāng)使用未固定的通信緩沖區(qū)時(shí),例如當(dāng) MPI 通信緩沖區(qū)未分配cudaMalloc時(shí),并行效率從 82% 下降到 61% 。

最終,四 GPU DGX 工作站的運(yùn)行速度比 Xeon Gold CPU 快 55 倍。雖然由于兩臺(tái)機(jī)器的范圍不同,直接比較可能不公平,但它提供了通過將代碼移植到 GPU 獲得的加速度感。 DGX 是一個(gè)連接到公共電源插頭的臺(tái)式工作站,但它提供的性能在 CPU 群集上只能通過數(shù)千個(gè) CPU 內(nèi)核獲得。

結(jié)論

您已經(jīng)看到 C ++標(biāo)準(zhǔn)語言并行性可以用來把像 PalabOS 這樣的庫移植到 GPU ,代碼性能驚人地提高。

對(duì)于 Palabos 庫的最終用戶來說,這種性能提升是通過一行更改來實(shí)現(xiàn)的,即從 CPU 后端切換到 GPU 后端。

對(duì)于 Palabos 庫開發(fā)人員來說,開發(fā)相應(yīng)的 GPU 后端需要做一些工作。

然而,這項(xiàng)工作不需要學(xué)習(xí)新的領(lǐng)域特定語言,也不依賴于 GPU 體系結(jié)構(gòu)的詳細(xì)知識(shí)。

關(guān)于作者

Jonas Latt 是瑞士日內(nèi)瓦大學(xué)計(jì)算機(jī)科學(xué)系的副教授。他從事高性能計(jì)算和計(jì)算流體力學(xué)的研究,并在包括地球物理、生物醫(yī)學(xué)和航空航天領(lǐng)域在內(nèi)的跨學(xué)科領(lǐng)域進(jìn)行應(yīng)用。他是 lattice Boltzmann 復(fù)雜流動(dòng)模擬開源軟件 Palabos 的最初開發(fā)者和當(dāng)前共同維護(hù)者。他以前在日內(nèi)瓦大學(xué)獲得物理學(xué)和計(jì)算機(jī)科學(xué)博士學(xué)位,并通過塔夫斯大學(xué)(波士頓,美國)和綜合理工學(xué)校 F.E.EdRaelde 洛桑 EPFL (瑞士)的研究,并作為 CFD 公司 FuluKIT 的聯(lián)合創(chuàng)始人,對(duì)流體力學(xué)感興趣。

Christophe Guy Coreixas 是一名航空工程師, 2014 年畢業(yè)于 ISAE-SUPAERO (法國圖盧茲)。 2018 年,他在 CERFACS 從事面向行業(yè)應(yīng)用的可壓縮晶格玻爾茲曼方法研究時(shí)獲得了博士學(xué)位(流體動(dòng)力學(xué))。作為日內(nèi)瓦大學(xué)計(jì)算機(jī)科學(xué)系的博士后,克里斯多夫現(xiàn)在開發(fā)格子玻爾茲曼模型來模擬航空、多物理和生物醫(yī)學(xué)流程。

Gonzalo Brito 是 NVIDIA 計(jì)算性能與 HPC 團(tuán)隊(duì)的高級(jí)開發(fā)技術(shù)工程師,工作于硬件和軟件的交叉點(diǎn)。他熱衷于讓加速計(jì)算變得更容易實(shí)現(xiàn)。在加入NVIDIA 之前,岡薩洛在 RWTH 亞琛大學(xué)空氣動(dòng)力學(xué)研究所開發(fā)了多物理方法,用于顆粒流。

Jeff Larkin 是 NVIDIA HPC 軟件團(tuán)隊(duì)的首席 HPC 應(yīng)用程序架構(gòu)師。他熱衷于高性能計(jì)算并行編程模型的發(fā)展和采用。他曾是 NVIDIA 開發(fā)人員技術(shù)小組的成員,專門從事高性能計(jì)算應(yīng)用程序的性能分析和優(yōu)化。 Jeff 還是 OpenACC 技術(shù)委員會(huì)主席,曾在 OpenACC 和 OpenMP 標(biāo)準(zhǔn)機(jī)構(gòu)工作。在加入NVIDIA 之前,杰夫在位于橡樹嶺國家實(shí)驗(yàn)室的克雷超級(jí)計(jì)算卓越中心工作。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11281

    瀏覽量

    225077
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5597

    瀏覽量

    109784
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5196

    瀏覽量

    135505
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    工業(yè)總線組網(wǎng)核心!MS-HUB_P Profibus/PPI/MPI 集線器,穩(wěn)定擴(kuò)展無壓力

    核心優(yōu)勢(shì),重塑工業(yè)總線組網(wǎng)體驗(yàn) 多協(xié)議兼容 + 即插即用 :完美支持 Profibus、PPI、MPI 三種工業(yè)總線協(xié)議,速率完全自適應(yīng),無需配置參數(shù)、無需加載 GSD 文件,設(shè)備接入即可使用,大幅
    的頭像 發(fā)表于 12-18 09:39 ?238次閱讀

    汽車中的GPU是如何使用的?

    (HMI)的發(fā)展尤為迅猛。隨著電子電氣架構(gòu)(EEA)的集中化,車輛對(duì)高性能計(jì)算能力的需求顯著提升,GPU(圖形處理單元)的靈活性、可擴(kuò)展性以及高效并行計(jì)算能力,使其成為支持這些創(chuàng)新應(yīng)用的核心組件
    的頭像 發(fā)表于 12-03 14:45 ?9583次閱讀
    汽車中的<b class='flag-5'>GPU</b>是如何使用的?

    手機(jī)板 layout 走線分割問題

    初學(xué)習(xí)layout時(shí),都在說信號(hào)線不可分割,但是在工作中為了成本不能分割似乎也非絕對(duì)。 在后續(xù)工作中,分割的基礎(chǔ)都是相鄰層有一面完整的GND參考,分割發(fā)生在相鄰的另外一層。 但
    發(fā)表于 09-16 14:56

    如何在大核rtt上把kd_mpi_vicap_start_stream三個(gè)攝像頭各自出的流拼成一個(gè)流呢?

    我要3個(gè)攝像頭在同一個(gè)畫面,目前vi采集部分跑的配置攝像頭各自出的流就已經(jīng)是960*540,最后啟動(dòng)kd_mpi_vicap_start_stream。 四宮格排列剛好是1080p,就是其中一個(gè)格子
    發(fā)表于 09-09 07:20

    Imagination GPU 全面支持 Vulkan 1.4 和 Android 16

    是Imagination開發(fā)者社區(qū)中廣受歡迎的圖形API,因其提供了低開銷、平臺(tái)訪問現(xiàn)代GPU的能力,幫助開發(fā)者在多種設(shè)備上最大化性能與效率。其對(duì)GPU操作的顯式控制,以及對(duì)
    的頭像 發(fā)表于 08-14 11:18 ?2298次閱讀
    Imagination <b class='flag-5'>GPU</b> 全面支持 Vulkan 1.4 和 Android 16

    aicube的n卡gpu索引該如何添加?

    請(qǐng)問有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經(jīng)安裝了cuda和cudnn,在全局的py里添加了torch,能夠調(diào)用gpu,當(dāng)還是只能看到默認(rèn)的gpu0,顯示不了gpu1
    發(fā)表于 07-25 08:18

    別讓 GPU 故障拖后腿,捷智算GPU維修室救場(chǎng)!

    在AI浪潮洶涌的當(dāng)下,GPU已然成為眾多企業(yè)與科研機(jī)構(gòu)的核心生產(chǎn)力。從深度學(xué)習(xí)模型訓(xùn)練,到影視渲染、復(fù)雜科學(xué)計(jì)算,GPU憑借強(qiáng)大并行計(jì)算能力,極大提升運(yùn)算效率。然而,就像高速運(yùn)轉(zhuǎn)的精密儀器易出狀況
    的頭像 發(fā)表于 07-17 18:56 ?1150次閱讀
    別讓 <b class='flag-5'>GPU</b> 故障拖后腿,捷智算<b class='flag-5'>GPU</b>維修室<b class='flag-5'>來</b>救場(chǎng)!

    ArkUI-X平臺(tái)技術(shù)落地-華為運(yùn)動(dòng)健康(一)

    法做到一致。 ??為了解決開發(fā)工作量翻倍和交互體驗(yàn)不一致的問題,華為運(yùn)動(dòng)健康利用H5技術(shù)進(jìn)行平臺(tái),就是業(yè)界常說的hybrid-app,但是H5技術(shù)天生就有性能缺陷,無法帶來極致流暢的用戶體驗(yàn)和“秒
    發(fā)表于 06-18 22:53

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】+NVlink技術(shù)從應(yīng)用到原理

    NVlink GPU,一口氣淘了兩張GTX960回進(jìn)行進(jìn)行組建SLI。作為DIY愛好者,當(dāng)時(shí)對(duì)于這一套還是非常滿意和興奮的,開展了一系列的測(cè)評(píng)和對(duì)比,說實(shí)話,看到那雙卡接近網(wǎng)絡(luò)上980“高端卡”的跑分個(gè)
    發(fā)表于 06-18 19:31

    ArkUI-X平臺(tái)應(yīng)用改造指南

    的HarmonyOS Next應(yīng)用,配套ArkUI-X平臺(tái)框架,可以快速改造為平臺(tái)應(yīng)用,縮短開發(fā)周期,同時(shí)還能確保應(yīng)用在 HarmonyOS Next、Android、iOS 多個(gè)平臺(tái)上,為用戶提供
    發(fā)表于 06-16 23:05

    GPU架構(gòu)深度解析

    GPU架構(gòu)深度解析從圖形處理到通用計(jì)算的進(jìn)化之路圖形處理單元(GPU),作為現(xiàn)代計(jì)算機(jī)中不可或缺的一部分,已經(jīng)從最初的圖形渲染專用處理器,發(fā)展成為強(qiáng)大的并行計(jì)算引擎,廣泛應(yīng)用于人工智能、科學(xué)計(jì)算
    的頭像 發(fā)表于 05-30 10:36 ?1868次閱讀
    <b class='flag-5'>GPU</b>架構(gòu)深度解析

    MPI協(xié)議是什么

    介紹: 協(xié)議特點(diǎn) 多點(diǎn)連接 :MPI允許多個(gè)設(shè)備連接到同一條MPI總線上,實(shí)現(xiàn)設(shè)備間的通信和數(shù)據(jù)共享。 物理層標(biāo)準(zhǔn) :MPI使用RS-485物理層標(biāo)準(zhǔn),通過雙絞線進(jìn)行數(shù)據(jù)傳輸,具有較強(qiáng)
    的頭像 發(fā)表于 05-23 09:19 ?2389次閱讀

    Profibus/PPI/MPI集線器#三格電子

    MPI
    三格電子科技
    發(fā)布于 :2025年04月21日 11:10:33

    可以手動(dòng)構(gòu)建imx-gpu-viv嗎?

    使用 imx-gpu-viv-6.4.3.p4.2.aarch64.bin。 https://www.nxp.com/lgfiles/NMG/MAD/YOCTO//imx-gpu-viv-6.4.3.p4.2-aarch64.bin 我需要
    發(fā)表于 03-28 06:35