3 月 28 日(北京時間),NVIDIA 在美國圣何塞召開了 GTC 2018(GPU Technology Conference 2018)大會,并發(fā)布了 Quadro 系列和 DGX 系列的兩款新品。
Quadro GV 100 是 NVIDIA 「專業(yè)圖形顯卡」系列的最新成員,公司 CEO 黃仁勛稱其為「世界上體積最大的 GPU」。
Quadro GV 100 擁有 5120 顆 CUDA 流處理器,640 顆 Tensor 處理器,最高可提供 14.8TFLOPS 的單精度浮點性能, 7.4TFLOPS 雙精度浮點性能;采用 32GB HBM2 顯存,顯存帶寬為 870GB/s;能夠提供 118T 的深度學習性能。
接口方面,Quadro GV 100 配備 4 個 Display 1.4 接口,可以對接最多 4 個 4096 x 2160 分辨率,120Hz 刷新率的顯示器;或 4 個 5120 x 2880 分辨率, 60Hz 刷新率的顯示器;或 2 個 7680 x 4320 分辨率,60Hz 刷新率的顯示器。
DGX-2 是一臺專門用于人工智能訓練和/或推理任務(wù)的桌面計算機,是 NVIDIA 的第二代 DGX「小型超級計算機」,采用新的 NVSwitch 技術(shù)并聯(lián) 16 塊 32GB 顯存的 Tesla V100 計算卡,以及兩枚英特爾 Xeon Platinum 處理器 ,擁有 1.5TB 系統(tǒng)內(nèi)存,與 30TB 的 NVMe SSD 作為存儲空間,顯存容量則為 512GB HBM2,可以提供最高 2petaFLOPS 的浮點性能。
這是它的內(nèi)部結(jié)構(gòu):
你可以看到,在圖中 1 和 2 的位置看起來是很多塊芯片。其實他們是英偉達的 Tesla V100 Volta 架構(gòu) GPGPU,單枚算力達到雙精度 7.8 TFLOPS(萬億次浮點計算)、單精度 15.7TFLOPS、深度學習 125TFLOPS。
而DGX-2 單機箱安裝了 16 枚 V100,總體性能達到了驚人的 2PFLOPS——業(yè)界第一臺超過千萬億次浮點計算能力的單機箱計算機——稱它為超算或許并不浮夸。
但 DGX-2 的算力并非靠堆疊出來,如果它們之間不能實現(xiàn)高帶寬的數(shù)據(jù)互通則無意義。
時間倒回兩年前,英偉達有意在深度學習的設(shè)備市場上對英特爾發(fā)起直接挑戰(zhàn),推出了 Pascal 架構(gòu)的 P100 GPGPU。在當時,主流服務(wù)器 PCIe 總線接口的帶寬和時延,已經(jīng)無法滿足英偉達的需求。于是它們開發(fā)出了一個新的設(shè)備內(nèi)互聯(lián)標準,叫做 NVLink,使得帶寬達到了 300 GB/s。一個 8 枚 GPGPU 的系統(tǒng)里,NVLink 大概長這樣:

然而 NVLink 的標準拓撲結(jié)構(gòu)在理論上最多支持 8 枚 顯卡,仍不足以滿足英偉達對于新系統(tǒng)內(nèi)置更多顯卡的需要。于是在 NVLink 的基礎(chǔ)上,英偉達開發(fā)出了一個名專門在顯卡之間管理 NVLink 任務(wù)的協(xié)處理器,命名為 NVSwitch。這個元件在 DGX-2 上,讓 16 枚 GPGPU 中兩兩之間實現(xiàn) NVLink 互通,總帶寬超過了 14.4 TB。
這一數(shù)字創(chuàng)造了桌面級電腦內(nèi)總線接口帶寬的新高,但實現(xiàn)它的目的并非跑分,而在于 DGX-2 可以 1)更快速地訓練一個高復(fù)雜度的神經(jīng)網(wǎng)絡(luò),或 2)同時訓練大量不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。
N 卡之所以被稱為核彈有一種另類的解釋方式:它的多核心架構(gòu)在這個依核心數(shù)量論高下的時代顯得超凡脫俗——動輒幾百、上千個 CUDA 核心,令人不明覺厲。而在 DGX-2 上,16 枚 V100 的 CUDA 核數(shù)達到了瘋狂的 81,920 核心。這一事實,結(jié)合 NVSwitch 技術(shù)、512GB 現(xiàn)存、30TB NVMe 固態(tài)硬盤、兩枚至強 Platimum CPU 和高達 1.5TB 的主機內(nèi)存——
黃仁勛用 GPU 深度學習里程碑式的杰作 AlexNet 來舉例。研究者 Alex Krizhevsk 用了 6 天,在英偉達 GPU 上訓練 AlexNet,這個研究首次利用梯度下降法和卷積神經(jīng)網(wǎng)絡(luò)進行計算機圖像識別,顯著優(yōu)于此前的手調(diào)參數(shù)法,拿下了 ImageNet 圖像識別競賽冠軍。AlexNet 讓 Alex 世界聞名,這 6 天可以說值了。
然而,“同樣的 8 層卷積神經(jīng)網(wǎng)絡(luò),我用 DGX-2 跑了一下,只用 18 分鐘就達到了同樣的結(jié)果,”黃仁勛說,“五年,500倍的進步?!?/p>
這說明了很多東西。其中有一條:在這五年里,英偉達的技術(shù)進步節(jié)奏已經(jīng)無法用摩爾定律來描述了。
Nvidia DGX-2 可提供 10 倍于上一代 Nvidia DGX-1 的深度學習性能,整體功耗為為 10KW,重 350 磅,售價僅為 39.9 萬美元(約合 250 萬人民幣)。
除了上述兩款重磅產(chǎn)品外,在今天的GTC 2018上,黃仁勛還宣布了英偉達的以下進展:
1、推出光線追蹤RTX技術(shù)(ray-tracing),能夠提供電影級畫質(zhì)的實時渲染,渲染出逼真的反射、折射和陰影畫面。這一技術(shù)由英偉達在前不久的GDC全球游戲開發(fā)者大會上展示過;
2、推出了第一款專用于醫(yī)療圖像處理的超級電腦Clara;
3、推出新版機器學習應(yīng)用平臺TensorRT 4,支持INT8與FP16精度,并與谷歌合作,將其整合進AI開源框架谷歌TensorFlow 1.7中;
4、宣布打造下一代名為DRIVE Orin的自動駕駛芯片,但除了名字外沒有透露更多信息;
5、正式推出3D仿真自動駕駛測試平臺DRIVE Constellation,這一測試平臺英偉達在CES上展示過,能夠幫助自動駕駛系統(tǒng)提升“姿勢水平”;
6、推出ISAAC機器人仿真訓練平臺SDK,將訓練機器人的技術(shù)開放出去;
此外英偉達還宣布將把它的開源深度學習架構(gòu)(NVDLA)帶到ARM即將推出的項目 Trillium 平臺上,NVDLA將幫助開發(fā)人員加速推理過程。英偉達通常依賴于自己的封閉平臺,不過,要想在移動物聯(lián)網(wǎng)設(shè)備方面發(fā)揮影響,英偉達有必要和在該領(lǐng)域占主導(dǎo)地位的ARM合作。
黃仁勛演講內(nèi)容:
重現(xiàn)照相質(zhì)量的3D世界一直以來是3D圖學的終極目標,真實世界中光線來自四面八方,為了要重現(xiàn)真實世界,就必須把各個光線的來源綜合計算,復(fù)雜度極高,傳統(tǒng)GPU可能一秒只能計算一格畫面,但我們今天利用新技術(shù),可以達到每秒60張畫面,這是非常不可思議的突破。
我們過去利用了許多不同的圖學技巧,不論是要降低計算負擔,或者是加速執(zhí)行,但仍然很難真實重現(xiàn)照片畫質(zhì)。
圖丨黃仁勛演講現(xiàn)場(圖片來源:DT君)
但決定畫面真實與否的最終條件,往往是畫面中的小細節(jié),比如說光線和物件之間的折射、散射、漫射、透射與反射等等,通過光線追蹤技術(shù),我們可以把真實世界的畫面成像原理搬到3D圖學當中,并且利用我們的GPU技術(shù)架構(gòu)來完成。
要考慮到不同的物件會吸收光線、折射光線的程度不同,比如說玻璃、塑膠,甚至我們的皮膚,都會一定程度的吸收光線,因此我們利用了subsurface scattering來達到這樣的效果,這在一般計算機圖學中是非常難以達到的效果,但通過光線追蹤技術(shù),我們可以輕易的達到。
黃仁勛用一段星際大戰(zhàn)影片來展示光線追蹤的效果,其效果幾乎和真實的電影畫面毫無差異,用肉眼幾乎看不出來是計算機計算的影片。尤其是在帝國士兵身上的鎧甲效果,反射光源后,和周圍環(huán)境進行多次折射和反射,以及光線的吸收,最終形成非常真實的畫面,幾乎和電影畫面沒有差別。
圖丨黃仁勛用星際大戰(zhàn)影片來展示光線追蹤的效果(來源:DT君)
這樣的畫面是在DGX超級計算平臺,通過2塊Volta繪圖卡達成。這是世界首次以實時呈現(xiàn)光線追蹤的效果。
在電影產(chǎn)業(yè)中,其實相關(guān)與光線處理相關(guān)的圖學技術(shù)都被使用,當你看到廣告、影片中,很多憑空創(chuàng)造出來的產(chǎn)物,基本上都是利用GPU創(chuàng)造出來的,而GPU每年都創(chuàng)造了超過10億張這些數(shù)字創(chuàng)作。通過GPU計算,我們讓產(chǎn)生這些圖像的成本和需要的時間降到最低,我們可以說,用越多GPU,你越省錢!
圖丨The more GPU you buy,the more you save
如今,通過使用 Quadro GV100,我們可以在單一機架中取代傳統(tǒng)龐大耗電的render farm,目前主要電影創(chuàng)作者都逐漸往這個方向前進,比如說 Pixar,就利用了這樣的架構(gòu)來產(chǎn)生他們的電影畫面。
而考慮到世界上有多少電影工作室正在從事電影相關(guān)創(chuàng)作,我們可以考慮一下這個市場規(guī)模會有多大,牽涉到多大的金額,天文數(shù)字。
GPU推動了AI產(chǎn)業(yè)的發(fā)展,但AI產(chǎn)業(yè)也同時推動了GPU的進步,不只是GPU架構(gòu)本身,還有相對應(yīng)的開發(fā)環(huán)境與軟件生態(tài),考慮到目前AI生態(tài)越來越蓬勃發(fā)展,我們可以說現(xiàn)時是個最佳的時間點,是讓產(chǎn)業(yè)改頭換面,前進到AI的領(lǐng)域中。
圖丨各種各樣的AI Network正在涌現(xiàn)
而為了滿足這些開發(fā)者的需求,超過800萬個開發(fā)者下載了我們的CUDA工具,他們創(chuàng)造出來的計算效能超過370PETAFLOPS。
這些高性能計算很大程度都是要用來改變世界,包括研究疾病、醫(yī)療、氣候變遷,甚至了解HIV的結(jié)構(gòu)。
我們拿2013年的GPU架構(gòu)和今年推出的最新產(chǎn)品相比,我們的GPU每隔五年就達到10倍的效能成長,傳統(tǒng)半導(dǎo)體有摩爾定律,但是在CUDA GPU中,我們創(chuàng)造了不同的定律,不只是硬件本身,我們也針對算法不斷的改善,總和以上的努力,我們才能達到這樣的成就。
傳統(tǒng)服務(wù)器的龐大、耗電,通過我們的GPU有了根本性的改變,我們可以說,你們在計算領(lǐng)域用了越多的GPU,其實就是越省錢!
在醫(yī)療圖像方面,很多疾病是越早偵測就越有機會治愈,但如何偵測疾病,視覺化的身體掃描技術(shù),包括超音波、斷層掃描等,如果能夠利用3D技術(shù)重建掃描結(jié)果,我們可以看到更真實的結(jié)果,而不是能依靠不明顯的陰影來判斷病征。
圖丨英偉達在醫(yī)療上的合作伙伴
通過遠端與醫(yī)療圖像設(shè)備連線,這些設(shè)備產(chǎn)生的圖形實時反饋到我們的CUDA服務(wù)器中,并實時產(chǎn)生這些清晰的動態(tài)圖像,通過深度學習,我們可以輕易判讀這些掃描的結(jié)果,并還原到我們?nèi)庋劭梢院唵闻凶x的3D立體型態(tài)。通過把這些服務(wù)器虛擬化,利用AI來后處理這些醫(yī)學圖像,我們可以創(chuàng)造出更容易判讀,且更不容易誤判的醫(yī)療圖像。
深度學習可以說重新塑造了我們現(xiàn)在的AI應(yīng)用,從過去厚重、龐大、笨拙的印象,變呈現(xiàn)在輕巧、快速、聰明的結(jié)果。從芯片設(shè)計者,到互聯(lián)架構(gòu),到軟件設(shè)計者,再到OEM廠商等,不論你在供應(yīng)鏈中的哪個環(huán)節(jié),我們都可以全力支持。
客戶想要達成不同的計算目標,不論是購買成品,或者是自行架設(shè),我們都能滿足客戶的需求。
近十年從機器學習到深度學習,從最早的模型,衍生出無數(shù)種不同的神經(jīng)網(wǎng)絡(luò)、模型,隨著應(yīng)用的增加,也越來越復(fù)雜。
當然,為了要應(yīng)付這些復(fù)雜的神經(jīng)網(wǎng)絡(luò)計算,現(xiàn)有的小型GPU其實很難以負擔,但我們從不同的方向去思考,如果把個別的GPU通過高效能的互聯(lián)結(jié)構(gòu)結(jié)合起來,形成一個巨大的GPU,這個GPU上面可以創(chuàng)造出過去不可能達成的計算成果。
圖丨用NVSwitch互聯(lián)16個GPU的DXG2 server
我們通過NVSwitch達成了這個目的,通過這個互聯(lián)架構(gòu),我們在DXG-2 server中互聯(lián)了16顆GPU,形成一個龐大的GPU架構(gòu),通過最新的NVLink,技術(shù),GPU和GPU之間可以用比PCIE快20倍的效率互相溝通。這個互聯(lián)結(jié)構(gòu)不是網(wǎng)絡(luò)狀結(jié)構(gòu),而是速度更快的交換器結(jié)構(gòu),通過這樣的互聯(lián)設(shè)計,我們在單一結(jié)構(gòu)中實現(xiàn)了2PETAFLOP的驚人效能。而且只需要2000W的功耗。其功耗性能比可說遠遠超出目前的超級計算機。
圖丨黃仁勛和世界上最大的GPU合影
現(xiàn)在新的AI芯片把云計算、深度學習看得太簡單,要考慮的因素太多,包括延遲、學習速率以及準確度等等,并不是在機架中塞進幾個ASIC芯片就能夠輕易解決的工作。我們要把盡可能快速的產(chǎn)生模型,盡可能讓模型更小,盡可能確保正確的結(jié)果輸出,背后的最大功臣就是開發(fā)工具。繼去年針對推理大幅進化的TensorRT3之后,我們現(xiàn)在推出了最新的TensorRT 4,支持更多主流框架,也更能把不同的神經(jīng)網(wǎng)絡(luò)部署到云服務(wù)器當中。這個版本我們又更加強化了推理性能。
通過TensorRT、NCCL和cuDNN,以及面向機器人的全新Isaac軟件開發(fā)套件,基于GPU的計算生態(tài)也更加完整。此外,通過與領(lǐng)先云服務(wù)提供商的密切合作,各大主流深度學習框架都在持續(xù)優(yōu)化,以充分利用NVIDIA的GPU計算平臺。
NVIDIA新推出的DGX-2系統(tǒng)通過借鑒NVIDIA為所有層級的計算堆棧開發(fā)的各種業(yè)界領(lǐng)先的技術(shù)優(yōu)勢,實現(xiàn)了每秒2千萬億次浮點運算的里程碑式突破。
圖丨黃仁勛演講
DGX-2是首款采用NVSwitch的系統(tǒng),其中采用的16個GPU均共享統(tǒng)一的內(nèi)存空間。這讓開發(fā)者獲得了相應(yīng)的深度學習訓練能力,以處理最大規(guī)模的數(shù)據(jù)集和最復(fù)雜的深度學習模型。
DGX-2能夠在不到兩天的時間內(nèi)完成對FAIRSeq的訓練,F(xiàn)AIRSeq是一種采用最新技術(shù)的神經(jīng)網(wǎng)絡(luò)機器翻譯模型,其性能相較于去年9月份推出的基于Volta架構(gòu)的DGX-1提高了10倍。
我們在此也要宣布推出DRIVE Constellation計算平臺。該平臺基于兩個不同的服務(wù)器,第一臺服務(wù)器運行DRIVE Sim軟件來模擬自動駕駛汽車的傳感器,例如攝像頭、LiDAR和雷達,第二臺則包括英偉達強大的Drive Pegasus自駕車AI計算機,運行完整的自駕車軟件堆棧和處理過程,就像駕駛汽車的傳感器一樣。
通過虛擬仿真,人們可以通過測試數(shù)十億英里的自定義場景和罕見的場景案例來增強算法的穩(wěn)健性,最終所花的時間和成本只是在真實物理道路上需要的一小部分。
-
芯片
+關(guān)注
關(guān)注
463文章
54063瀏覽量
466862 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4838瀏覽量
107915 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5617瀏覽量
109864
原文標題:剛剛Nvidia發(fā)布僅售250萬元的超級怪獸DGX-2|附黃仁勛演講實錄
文章出處:【微信號:eetop-1,微信公眾號:EETOP】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
首屆中國NVIDIA DGX Spark黑客松大賽開啟報名
NVIDIA DGX SuperPOD為Rubin平臺橫向擴展提供藍圖
意法半導(dǎo)體ST87M01系列NB-IoT無線模塊新增兩款產(chǎn)品
NVIDIA DGX Spark系統(tǒng)恢復(fù)過程與步驟
面向科學仿真的開放模型系列NVIDIA Apollo正式發(fā)布
NVIDIA DGX Spark助力構(gòu)建自己的AI模型
在NVIDIA DGX Spark平臺上對NVIDIA ConnectX-7 200G網(wǎng)卡配置教程
NVIDIA DGX Spark快速入門指南
奧比中光旗下新拓三維發(fā)布兩款3D掃描雙旗艦新品
Cadence 借助 NVIDIA DGX SuperPOD 模型擴展數(shù)字孿生平臺庫,加速 AI 數(shù)據(jù)中心部署與運營
NVIDIA發(fā)布AI優(yōu)先DGX個人計算系統(tǒng)
紫光閃存推出兩款PCIe 5.0固態(tài)硬盤
NVIDIA GTC2025 亮點 NVIDIA推出 DGX Spark個人AI計算機
研華兩款新品榮獲2025年德國iF設(shè)計大獎
NVIDIA 宣布推出 DGX Spark 個人 AI 計算機
NVIDIA在美國發(fā)布了 Quadro 系列和 DGX 系列的兩款新品
評論