亚洲AV无码一区二区三区高潮,av在线导航a级片网址,黄色亚洲大片日韩欧美片

3 月 28 日（北京時間），NVIDIA 在美國圣何塞召開了 GTC 2018（GPU Technology Conference 2018）大會，并發(fā)布了 Quadro 系列和 DGX 系列的兩款新品。

Quadro GV 100 是 NVIDIA 「專業(yè)圖形顯卡」系列的最新成員，公司 CEO 黃仁勛稱其為「世界上體積最大的 GPU」。

Quadro GV 100 擁有 5120 顆 CUDA 流處理器，640 顆 Tensor 處理器，最高可提供 14.8TFLOPS 的單精度浮點性能， 7.4TFLOPS 雙精度浮點性能；采用 32GB HBM2 顯存，顯存帶寬為 870GB/s；能夠提供 118T 的深度學習性能。

接口方面，Quadro GV 100 配備 4 個 Display 1.4 接口，可以對接最多 4 個 4096 x 2160 分辨率，120Hz 刷新率的顯示器；或 4 個 5120 x 2880 分辨率， 60Hz 刷新率的顯示器；或 2 個 7680 x 4320 分辨率，60Hz 刷新率的顯示器。

DGX-2 是一臺專門用于人工智能訓練和/或推理任務(wù)的桌面計算機，是 NVIDIA 的第二代 DGX「小型超級計算機」，采用新的 NVSwitch 技術(shù)并聯(lián) 16 塊 32GB 顯存的 Tesla V100 計算卡，以及兩枚英特爾 Xeon Platinum 處理器，擁有 1.5TB 系統(tǒng)內(nèi)存，與 30TB 的 NVMe SSD 作為存儲空間，顯存容量則為 512GB HBM2，可以提供最高 2petaFLOPS 的浮點性能。

這是它的內(nèi)部結(jié)構(gòu)：

你可以看到，在圖中 1 和 2 的位置看起來是很多塊芯片。其實他們是英偉達的 Tesla V100 Volta 架構(gòu) GPGPU，單枚算力達到雙精度 7.8 TFLOPS（萬億次浮點計算）、單精度 15.7TFLOPS、深度學習 125TFLOPS。

而DGX-2 單機箱安裝了 16 枚 V100，總體性能達到了驚人的 2PFLOPS——業(yè)界第一臺超過千萬億次浮點計算能力的單機箱計算機——稱它為超算或許并不浮夸。

但 DGX-2 的算力并非靠堆疊出來，如果它們之間不能實現(xiàn)高帶寬的數(shù)據(jù)互通則無意義。

時間倒回兩年前，英偉達有意在深度學習的設(shè)備市場上對英特爾發(fā)起直接挑戰(zhàn)，推出了 Pascal 架構(gòu)的 P100 GPGPU。在當時，主流服務(wù)器 PCIe 總線接口的帶寬和時延，已經(jīng)無法滿足英偉達的需求。于是它們開發(fā)出了一個新的設(shè)備內(nèi)互聯(lián)標準，叫做 NVLink，使得帶寬達到了 300 GB/s。一個 8 枚 GPGPU 的系統(tǒng)里，NVLink 大概長這樣：

然而 NVLink 的標準拓撲結(jié)構(gòu)在理論上最多支持 8 枚顯卡，仍不足以滿足英偉達對于新系統(tǒng)內(nèi)置更多顯卡的需要。于是在 NVLink 的基礎(chǔ)上，英偉達開發(fā)出了一個名專門在顯卡之間管理 NVLink 任務(wù)的協(xié)處理器，命名為 NVSwitch。這個元件在 DGX-2 上，讓 16 枚 GPGPU 中兩兩之間實現(xiàn) NVLink 互通，總帶寬超過了 14.4 TB。

這一數(shù)字創(chuàng)造了桌面級電腦內(nèi)總線接口帶寬的新高，但實現(xiàn)它的目的并非跑分，而在于 DGX-2 可以 1）更快速地訓練一個高復(fù)雜度的神經(jīng)網(wǎng)絡(luò)，或 2）同時訓練大量不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。

N 卡之所以被稱為核彈有一種另類的解釋方式：它的多核心架構(gòu)在這個依核心數(shù)量論高下的時代顯得超凡脫俗——動輒幾百、上千個 CUDA 核心，令人不明覺厲。而在 DGX-2 上，16 枚 V100 的 CUDA 核數(shù)達到了瘋狂的 81,920 核心。這一事實，結(jié)合 NVSwitch 技術(shù)、512GB 現(xiàn)存、30TB NVMe 固態(tài)硬盤、兩枚至強 Platimum CPU 和高達 1.5TB 的主機內(nèi)存——

黃仁勛用 GPU 深度學習里程碑式的杰作 AlexNet 來舉例。研究者 Alex Krizhevsk 用了 6 天，在英偉達 GPU 上訓練 AlexNet，這個研究首次利用梯度下降法和卷積神經(jīng)網(wǎng)絡(luò)進行計算機圖像識別，顯著優(yōu)于此前的手調(diào)參數(shù)法，拿下了 ImageNet 圖像識別競賽冠軍。AlexNet 讓 Alex 世界聞名，這 6 天可以說值了。

然而，“同樣的 8 層卷積神經(jīng)網(wǎng)絡(luò)，我用 DGX-2 跑了一下，只用 18 分鐘就達到了同樣的結(jié)果，”黃仁勛說，“五年，500倍的進步?！?/p>

這說明了很多東西。其中有一條：在這五年里，英偉達的技術(shù)進步節(jié)奏已經(jīng)無法用摩爾定律來描述了。

Nvidia DGX-2 可提供 10 倍于上一代 Nvidia DGX-1 的深度學習性能，整體功耗為為 10KW，重 350 磅，售價僅為 39.9 萬美元（約合 250 萬人民幣）。

除了上述兩款重磅產(chǎn)品外，在今天的GTC 2018上，黃仁勛還宣布了英偉達的以下進展：

1、推出光線追蹤RTX技術(shù)（ray-tracing），能夠提供電影級畫質(zhì)的實時渲染，渲染出逼真的反射、折射和陰影畫面。這一技術(shù)由英偉達在前不久的GDC全球游戲開發(fā)者大會上展示過；

2、推出了第一款專用于醫(yī)療圖像處理的超級電腦Clara；

3、推出新版機器學習應(yīng)用平臺TensorRT 4，支持INT8與FP16精度，并與谷歌合作，將其整合進AI開源框架谷歌TensorFlow 1.7中；

4、宣布打造下一代名為DRIVE Orin的自動駕駛芯片，但除了名字外沒有透露更多信息；

5、正式推出3D仿真自動駕駛測試平臺DRIVE Constellation，這一測試平臺英偉達在CES上展示過，能夠幫助自動駕駛系統(tǒng)提升“姿勢水平”；

6、推出ISAAC機器人仿真訓練平臺SDK，將訓練機器人的技術(shù)開放出去；

此外英偉達還宣布將把它的開源深度學習架構(gòu)（NVDLA）帶到ARM即將推出的項目 Trillium 平臺上，NVDLA將幫助開發(fā)人員加速推理過程。英偉達通常依賴于自己的封閉平臺，不過，要想在移動物聯(lián)網(wǎng)設(shè)備方面發(fā)揮影響，英偉達有必要和在該領(lǐng)域占主導(dǎo)地位的ARM合作。

黃仁勛演講內(nèi)容：

重現(xiàn)照相質(zhì)量的3D世界一直以來是3D圖學的終極目標，真實世界中光線來自四面八方，為了要重現(xiàn)真實世界，就必須把各個光線的來源綜合計算，復(fù)雜度極高，傳統(tǒng)GPU可能一秒只能計算一格畫面，但我們今天利用新技術(shù)，可以達到每秒60張畫面，這是非常不可思議的突破。

我們過去利用了許多不同的圖學技巧，不論是要降低計算負擔，或者是加速執(zhí)行，但仍然很難真實重現(xiàn)照片畫質(zhì)。

圖丨黃仁勛演講現(xiàn)場（圖片來源：DT君）

但決定畫面真實與否的最終條件，往往是畫面中的小細節(jié)，比如說光線和物件之間的折射、散射、漫射、透射與反射等等，通過光線追蹤技術(shù)，我們可以把真實世界的畫面成像原理搬到3D圖學當中，并且利用我們的GPU技術(shù)架構(gòu)來完成。

要考慮到不同的物件會吸收光線、折射光線的程度不同，比如說玻璃、塑膠，甚至我們的皮膚，都會一定程度的吸收光線，因此我們利用了subsurface scattering來達到這樣的效果，這在一般計算機圖學中是非常難以達到的效果，但通過光線追蹤技術(shù)，我們可以輕易的達到。

黃仁勛用一段星際大戰(zhàn)影片來展示光線追蹤的效果，其效果幾乎和真實的電影畫面毫無差異，用肉眼幾乎看不出來是計算機計算的影片。尤其是在帝國士兵身上的鎧甲效果，反射光源后，和周圍環(huán)境進行多次折射和反射，以及光線的吸收，最終形成非常真實的畫面，幾乎和電影畫面沒有差別。

圖丨黃仁勛用星際大戰(zhàn)影片來展示光線追蹤的效果（來源：DT君）

這樣的畫面是在DGX超級計算平臺，通過2塊Volta繪圖卡達成。這是世界首次以實時呈現(xiàn)光線追蹤的效果。

在電影產(chǎn)業(yè)中，其實相關(guān)與光線處理相關(guān)的圖學技術(shù)都被使用，當你看到廣告、影片中，很多憑空創(chuàng)造出來的產(chǎn)物，基本上都是利用GPU創(chuàng)造出來的，而GPU每年都創(chuàng)造了超過10億張這些數(shù)字創(chuàng)作。通過GPU計算，我們讓產(chǎn)生這些圖像的成本和需要的時間降到最低，我們可以說，用越多GPU，你越省錢！

圖丨The more GPU you buy，the more you save

如今，通過使用 Quadro GV100，我們可以在單一機架中取代傳統(tǒng)龐大耗電的render farm，目前主要電影創(chuàng)作者都逐漸往這個方向前進，比如說 Pixar，就利用了這樣的架構(gòu)來產(chǎn)生他們的電影畫面。

而考慮到世界上有多少電影工作室正在從事電影相關(guān)創(chuàng)作，我們可以考慮一下這個市場規(guī)模會有多大，牽涉到多大的金額，天文數(shù)字。

GPU推動了AI產(chǎn)業(yè)的發(fā)展，但AI產(chǎn)業(yè)也同時推動了GPU的進步，不只是GPU架構(gòu)本身，還有相對應(yīng)的開發(fā)環(huán)境與軟件生態(tài)，考慮到目前AI生態(tài)越來越蓬勃發(fā)展，我們可以說現(xiàn)時是個最佳的時間點，是讓產(chǎn)業(yè)改頭換面，前進到AI的領(lǐng)域中。

圖丨各種各樣的AI Network正在涌現(xiàn)

而為了滿足這些開發(fā)者的需求，超過800萬個開發(fā)者下載了我們的CUDA工具，他們創(chuàng)造出來的計算效能超過370PETAFLOPS。

這些高性能計算很大程度都是要用來改變世界，包括研究疾病、醫(yī)療、氣候變遷，甚至了解HIV的結(jié)構(gòu)。

我們拿2013年的GPU架構(gòu)和今年推出的最新產(chǎn)品相比，我們的GPU每隔五年就達到10倍的效能成長，傳統(tǒng)半導(dǎo)體有摩爾定律，但是在CUDA GPU中，我們創(chuàng)造了不同的定律，不只是硬件本身，我們也針對算法不斷的改善，總和以上的努力，我們才能達到這樣的成就。

傳統(tǒng)服務(wù)器的龐大、耗電，通過我們的GPU有了根本性的改變，我們可以說，你們在計算領(lǐng)域用了越多的GPU，其實就是越省錢！

在醫(yī)療圖像方面，很多疾病是越早偵測就越有機會治愈，但如何偵測疾病，視覺化的身體掃描技術(shù)，包括超音波、斷層掃描等，如果能夠利用3D技術(shù)重建掃描結(jié)果，我們可以看到更真實的結(jié)果，而不是能依靠不明顯的陰影來判斷病征。

圖丨英偉達在醫(yī)療上的合作伙伴

通過遠端與醫(yī)療圖像設(shè)備連線，這些設(shè)備產(chǎn)生的圖形實時反饋到我們的CUDA服務(wù)器中，并實時產(chǎn)生這些清晰的動態(tài)圖像，通過深度學習，我們可以輕易判讀這些掃描的結(jié)果，并還原到我們?nèi)庋劭梢院唵闻凶x的3D立體型態(tài)。通過把這些服務(wù)器虛擬化，利用AI來后處理這些醫(yī)學圖像，我們可以創(chuàng)造出更容易判讀，且更不容易誤判的醫(yī)療圖像。

深度學習可以說重新塑造了我們現(xiàn)在的AI應(yīng)用，從過去厚重、龐大、笨拙的印象，變呈現(xiàn)在輕巧、快速、聰明的結(jié)果。從芯片設(shè)計者，到互聯(lián)架構(gòu)，到軟件設(shè)計者，再到OEM廠商等，不論你在供應(yīng)鏈中的哪個環(huán)節(jié)，我們都可以全力支持。

客戶想要達成不同的計算目標，不論是購買成品，或者是自行架設(shè)，我們都能滿足客戶的需求。

近十年從機器學習到深度學習，從最早的模型，衍生出無數(shù)種不同的神經(jīng)網(wǎng)絡(luò)、模型，隨著應(yīng)用的增加，也越來越復(fù)雜。

當然，為了要應(yīng)付這些復(fù)雜的神經(jīng)網(wǎng)絡(luò)計算，現(xiàn)有的小型GPU其實很難以負擔，但我們從不同的方向去思考，如果把個別的GPU通過高效能的互聯(lián)結(jié)構(gòu)結(jié)合起來，形成一個巨大的GPU，這個GPU上面可以創(chuàng)造出過去不可能達成的計算成果。

圖丨用NVSwitch互聯(lián)16個GPU的DXG2 server

我們通過NVSwitch達成了這個目的，通過這個互聯(lián)架構(gòu)，我們在DXG-2 server中互聯(lián)了16顆GPU，形成一個龐大的GPU架構(gòu)，通過最新的NVLink，技術(shù)，GPU和GPU之間可以用比PCIE快20倍的效率互相溝通。這個互聯(lián)結(jié)構(gòu)不是網(wǎng)絡(luò)狀結(jié)構(gòu)，而是速度更快的交換器結(jié)構(gòu)，通過這樣的互聯(lián)設(shè)計，我們在單一結(jié)構(gòu)中實現(xiàn)了2PETAFLOP的驚人效能。而且只需要2000W的功耗。其功耗性能比可說遠遠超出目前的超級計算機。

圖丨黃仁勛和世界上最大的GPU合影

現(xiàn)在新的AI芯片把云計算、深度學習看得太簡單，要考慮的因素太多，包括延遲、學習速率以及準確度等等，并不是在機架中塞進幾個ASIC芯片就能夠輕易解決的工作。我們要把盡可能快速的產(chǎn)生模型，盡可能讓模型更小，盡可能確保正確的結(jié)果輸出，背后的最大功臣就是開發(fā)工具。繼去年針對推理大幅進化的TensorRT3之后，我們現(xiàn)在推出了最新的TensorRT 4，支持更多主流框架，也更能把不同的神經(jīng)網(wǎng)絡(luò)部署到云服務(wù)器當中。這個版本我們又更加強化了推理性能。

通過TensorRT、NCCL和cuDNN，以及面向機器人的全新Isaac軟件開發(fā)套件，基于GPU的計算生態(tài)也更加完整。此外，通過與領(lǐng)先云服務(wù)提供商的密切合作，各大主流深度學習框架都在持續(xù)優(yōu)化，以充分利用NVIDIA的GPU計算平臺。

NVIDIA新推出的DGX-2系統(tǒng)通過借鑒NVIDIA為所有層級的計算堆棧開發(fā)的各種業(yè)界領(lǐng)先的技術(shù)優(yōu)勢，實現(xiàn)了每秒2千萬億次浮點運算的里程碑式突破。

圖丨黃仁勛演講

DGX-2是首款采用NVSwitch的系統(tǒng)，其中采用的16個GPU均共享統(tǒng)一的內(nèi)存空間。這讓開發(fā)者獲得了相應(yīng)的深度學習訓練能力，以處理最大規(guī)模的數(shù)據(jù)集和最復(fù)雜的深度學習模型。

DGX-2能夠在不到兩天的時間內(nèi)完成對FAIRSeq的訓練，F(xiàn)AIRSeq是一種采用最新技術(shù)的神經(jīng)網(wǎng)絡(luò)機器翻譯模型，其性能相較于去年9月份推出的基于Volta架構(gòu)的DGX-1提高了10倍。

我們在此也要宣布推出DRIVE Constellation計算平臺。該平臺基于兩個不同的服務(wù)器，第一臺服務(wù)器運行DRIVE Sim軟件來模擬自動駕駛汽車的傳感器，例如攝像頭、LiDAR和雷達，第二臺則包括英偉達強大的Drive Pegasus自駕車AI計算機，運行完整的自駕車軟件堆棧和處理過程，就像駕駛汽車的傳感器一樣。

通過虛擬仿真，人們可以通過測試數(shù)十億英里的自定義場景和罕見的場景案例來增強算法的穩(wěn)健性，最終所花的時間和成本只是在真實物理道路上需要的一小部分。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

芯片

芯片

+關(guān)注

關(guān)注
463

文章
54063

瀏覽量
466862
神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4838

瀏覽量
107915
NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5617

瀏覽量
109864

原文標題：剛剛Nvidia發(fā)布僅售250萬元的超級怪獸DGX-2|附黃仁勛演講實錄

文章出處：【微信號：eetop-1，微信公眾號：EETOP】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

NVIDIA在美國發(fā)布了 Quadro 系列和 DGX 系列的兩款新品

評論