91精品一区二在线,伊人婷婷激情成人一级a片 ,亚洲AV无码免费网站

編者按：8月份時候，我們曾出過一篇深度學(xué)習(xí)顯卡選型指南，由于當時新顯卡還沒發(fā)售，文章只能基于新一代創(chuàng)新做一些推測性分析，對讀者來說，這樣的結(jié)果可能太晦澀，也不夠直觀。今天，論智就給大家?guī)砹肆硪黄哒f服力的文章，它來自人工智能硬件公司Lambda，主要對比分析了RTX 2080 Ti、RTX 2080、GTX 1080 Ti、Titan V和Tesla V100的成本、價格差異。

在深度學(xué)習(xí)實踐中，很多人會經(jīng)常問一個問題：什么是最好的深度學(xué)習(xí)GPU？在這篇文章中，我們將主要分析以下幾款目前最優(yōu)秀的GPU：

RTX 2080 Ti

RTX 2080

GTX 1080 Ti

Titan V

Tesla V100

為了從中挑選出最佳GPU，我們會從定價、性能兩個維度對它們進行分析。

實驗結(jié)果

根據(jù)全面定性定量的實驗結(jié)果，截至2018年10月8日，NVIDIA RTX 2080 Ti是現(xiàn)在最好的深度學(xué)習(xí)GPU（用單個GPU運行Tensoflow）。以單GPU系統(tǒng)的性能為例，對比其他GPU，它的優(yōu)劣分別是：

FP32時，速度比1080 Ti快38%；FP16時，快62％。在價格上，2080 Ti比1080 Ti貴25%

FP32時，速度比2080快35%；FP16時，快47％。在價格上，2080 Ti比2080貴25%

FP32時，速度是Titan V的96%；FP16時，快3％。在價格上，2080 Ti是Titan V的1/2

FP32時，速度是Tesla V100的80%；FP16時，是Tesla V100的82%。在價格上，2080 Ti是Tesla V100的1/5

請注意，所有實驗都使用Tensor Core（可用時），并且完全按照單個GPU系統(tǒng)成本計算。

深入分析

實驗中，所有GPU的性能都是通過在合成數(shù)據(jù)上訓(xùn)練常規(guī)模型，測量FP32和FP16時的吞吐量（每秒處理的訓(xùn)練樣本數(shù)）來進行評估的。為了標準化數(shù)據(jù)，同時體現(xiàn)其他GPU相對于1080 Ti的提升情況，實驗以1080 Ti的吞吐量為基數(shù)，將其他GPU吞吐量除以基數(shù)計算加速比，這個數(shù)據(jù)是衡量兩個系統(tǒng)間相對性能的指標。

訓(xùn)練不同模型時，各型號GPU的吞吐量

對上圖數(shù)據(jù)計算平均值，同時按不同浮點計算能力進行分類，我們可以得到：

FP16時各GPU相對1080 Ti的加速比

FP32時各GPU相對1080 Ti的加速比

可以發(fā)現(xiàn)，2080的模型訓(xùn)練用時和1080 Ti基本持平，但2080 Ti有顯著提升。而Titan V和Tesla V100由于是專為深度學(xué)習(xí)設(shè)計的GPU，它們的性能自然會比桌面級產(chǎn)品高出不少。最后，我們再將每個GPU的平均加速情況除以各自總成本：

FP16時各GPU相對1080 Ti的每美元加速情況

FP32時各GPU相對1080 Ti的每美元加速情況

根據(jù)這個評估指標，RTX 2080 Ti是所有GPU中最物有所值的。

2080 Ti vs V100：2080 Ti真的那么快嗎？

可能有人會有疑問，為什么2080 Ti的速度能達到Tesla V100的80%，但它的價格只是后者的八分之一？答案很簡單，NVIDIA希望細分市場，以便那些有足夠財力的機構(gòu)/個人繼續(xù)購買Tesla V100（約9800美元），而普通用戶則可以選擇在自己價格接受范圍內(nèi)的RTX和GTX系列顯卡——它們的性價比更高。

除了AWS、Azure和Google Cloud這樣的云服務(wù)商，個人和機構(gòu)可能還是買2080 Ti更劃算。但這不是說亞馬遜、微軟、Google這些公司“人傻錢多”，Tesla V100確實有一些其他GPU所沒有的重要功能：

如果你需要FP64計算。如果你的研究領(lǐng)域是計算流體力學(xué)、N體模擬或其他需要高數(shù)值精度（FP64）的工作，那么你就得購買Titan V或V100s。

如果你對32 GB的內(nèi)存有極大需求（比如11G的內(nèi)存都不夠存儲模型的1個batch）。這類情況很少見，它面向的是想創(chuàng)建自己的模型體系架構(gòu)的用戶。而大多數(shù)人使用的都是像ResNet、VGG、Inception、SSD或Yolo這樣的東西，這些人的占比可能不到5%。

面對2080 Ti，為什么還會有人買Tesla V100？這就是NVIDIA做生意的高明之處。

2080 Ti是保時捷911，V100是布加迪威龍

V100有點像布加迪威龍，它是世界上最快的、能在公路上合法行駛的車，同時價格也貴得離譜。如果你不得不擔心它的保險和維修費，那你肯定買不起這車。另一方面，RTX 2080 Ti就像一輛保時捷911，它速度非?？?，操控性好，價格昂貴，但在炫耀性上就遠不如前者。

畢竟如果你有買布加迪威龍的錢，你可以買一輛保時捷，外加一幢房子、一輛寶馬7系、送三個孩子上大學(xué)和一筆客觀的退休金。

原始性能數(shù)據(jù)

FP32吞吐量

FP32（單精度）算法是訓(xùn)練CNN時最常用的精度。以下是實驗中的具體吞吐量數(shù)據(jù)：

FP16吞吐量（Sako）

FP16（半精度）算法足以訓(xùn)練許多網(wǎng)絡(luò)，這里實驗用了Yusaku Sako基準腳本：

FP32（Sako）

FP16時訓(xùn)練加速比（以1080 Ti為基準）

FP32時訓(xùn)練加速比（以1080 Ti為基準）

價格表現(xiàn)數(shù)據(jù)（加速/$1,000）FP32

價格表現(xiàn)數(shù)據(jù)（加速/$1,000）FP16

實驗方法

所有模型都在合成數(shù)據(jù)集上進行訓(xùn)練，這能將GPU性能與CPU預(yù)處理性能有效隔離開來。

對于每個GPU，對每個模型進行10次訓(xùn)練實驗。測量每秒處理的圖像數(shù)量，然后在10次實驗中取平均值。

計算加速基準的方法是獲取的圖像/秒吞吐量除以該特定模型的最小圖像/秒吞吐量。這基本上顯示了相對于基線的百分比改善（在本實驗中基準為1080 Ti）。

2080 Ti、2080、Titan V和V100基準測試中考慮到了Tensor Core。

實驗中使用的batch size

此外，實驗還有關(guān)于硬件、軟件和“什么是典型的單GPU系統(tǒng)”的具體設(shè)置，力求盡量還原普通用戶的模型訓(xùn)練環(huán)境，充分保障了結(jié)果的準確性。相信看到這里，結(jié)合之前那篇長文，大家已經(jīng)對該買什么GPU有了清楚認識，祝各位剁手愉快！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴