NVIDIA從提出GPU以及CUDA核心開始,NVIDIA便開始逐步邁出游戲圈,不斷向全新的計算領域發(fā)起攻勢。時至今日,NVIDIA GPU計算從機器人、自動駕駛,一路擴展到云計算、醫(yī)療甚至是NASA火星登錄計劃。
是的,正如GTC CHINA 2019上,NVIDIA創(chuàng)始人兼CEO黃仁勛所言,就算摩爾定律走向終結(jié),GPU加速計算將有機會成為未來的發(fā)展方向,GPU正在變得無所不能,也將無處不在。
云游戲與光線追蹤全面開花以游戲發(fā)家的NVIDIA開場少不了游戲的戲份。開場黃仁勛便展示了《我的世界》RTX版本,這也是GTC主題演講上首次展示《我的世界》RTX視頻。
通過對光影的添加,這款沙盤化的游戲有了全新的演繹,不僅水面變得更為真實,隨著視角、天氣、時間變化,光影也呈現(xiàn)出不同的效果。
這套實時光纖追蹤技術可以讓開發(fā)者在添加光源之后,依靠GeForce RTX顯卡中的RT Core演算出光線路徑,從而獲得自然的光線效果,同時也減輕了游戲開發(fā)者手動考慮光影貼圖的繁瑣工作。
除了《我的世界》增加的光線追蹤特效,GTC上黃仁勛還宣布了六款游戲正引入光線追蹤,包括《邊境》(Boundary)、《鈴蘭計劃》(Convallaria)、《暗影火炬》(F.I.S.T.)、Project X(項目代號)、《無限法則》(Ring of Elysium)以及《軒轅劍柒》(Xuan-Yuan Sword VII)。
同時老黃還特意在臺上演示了《光明記憶:無限》的光線追蹤DEMO。重點在于負責《光明記憶》的飛燕群島個人工作室主力僅有一人,通過一人之力完成美術、程序以及最新的光線追蹤技術功能,也足以見得虛幻引擎對光線追蹤已經(jīng)提供了相當優(yōu)秀的支持,可以更為輕松調(diào)用GeForce RTX的光線追蹤功能。
此外,目前宣布支持光線追蹤游戲陣營包括:《光明記憶:無限》(Bright Memory: Infinite)、《賽博朋克2077》(Cyberpunk 2077)、《消逝的光芒2》(Dying Light 2)、《我的世界》(Minecraft)、《逆水寒》(Justice)、《劍俠情緣叁網(wǎng)絡版》(JX3 Online)、《重生邊緣》(SYNCED: Off-Planet)、《仙劍奇?zhèn)b傳七》(Sword And Fairy 7)、《看門狗:軍團》《Watch Dogs: Legion》以及《吸血鬼:避世血族2》 (Vampire: The Masquerade – Bloodlines 2)。
在推進光線追蹤技術進駐預習的同時,NVIDIA與騰訊游戲合作的START云游戲服務也進入了測試階段。
類似NVIDIA在北美和歐洲推出的GeForce NOW云游戲服務,騰訊START可以讓玩家在在配置不足的設備上也能玩AAA游戲。騰訊游戲計劃將擴展其云游戲產(chǎn)品。
NVIDIA與騰訊還將成立一個一個游戲聯(lián)合創(chuàng)新實驗室。雙方將共同探索AI在游戲、游戲引擎優(yōu)化和新光照技術(包括光線追蹤和光線烘焙)中的新應用。借著START服務東風,英偉達的云游戲技術也終于可以在國內(nèi)付諸實踐。
RTX Studio加速內(nèi)容創(chuàng)作顯卡性能也早已不局限在游戲中,英偉達針對RTX Studio的產(chǎn)品線覆蓋也已經(jīng)從GeForce RTX 2060筆記本覆蓋到8路Quadro RTX 8000工作站。在加上NVIDIA OMNIVERSE所提供的3D制作流程的協(xié)作平臺,創(chuàng)作者可以通過不同的分工協(xié)同工作。
現(xiàn)在NVIDIA OMNIVERSE也已經(jīng)正式進駐建筑行業(yè)AEC,可以做到無論本地還是云端,主流應用都能依靠NVIDIA RTX展開建模、著色、動畫、視覺效果等等。在演講臺上,老黃也豪氣的演示如何利用8 路 RTX 8000 的 RTX 服務器對深圳華潤大廈實時渲染。
在電影、視覺特效領域,瑞云云端渲染平臺也宣布配備NVIDIA RTX GPU。瑞云目前是全亞洲最大的云渲染平臺,2019年火爆的《戰(zhàn)狼2》、《哪吒》、《流浪地球》渲染均來自瑞云,超過85%的中國電影工作室都是瑞云的客戶。很快,首批5000片RTX GPU也將會在2020年上線。
在現(xiàn)場,黃仁勛也不忘搬出那句經(jīng)典臺詞:“買的越多,省得越多?!贬槍︿秩竟ぷ鳎琑TX GPU能夠做到速度比CPU快12倍,價格低7倍。原本CPU上需要花費485個小時的渲染場景,交給RTX GPU現(xiàn)在可能只需要40個小時就能完成。
讓未來所見所得跳出大家耳熟能詳?shù)挠螒?、渲染領域,NVIDIA也已經(jīng)將視野放向了外太空。NASA計劃在2030年將6位宇航員送向火星,著陸器將以12000千米/小時的速度進入火星大氣層,而且必須精確點火減速并在6分鐘內(nèi)降落在火星表面。
為此NASA借助NVIDIA GPU通過FUN3D流體李璇軟件進行了數(shù)十萬次火星著陸場景模擬,將產(chǎn)生的150TB數(shù)據(jù)變成了可視化,現(xiàn)在,NVIDIA DGX-2上已經(jīng)可以借助Magnum IO GPU Direct Storage技術,對數(shù)據(jù)進行可視化處理,這在以前是不敢想象的。
如果登陸火星還不夠,科研人員也正在借助GPU內(nèi)的CUDA核心對全基因組進行測序。通過全基因組測序分析整個基因序列,可以檢測由遺傳性疾病引起的DNA變異。為此,NVIDIA推出了一套Parabricks 基因組分析工具包,借助CUDA基因測序可以加速到30-50倍完成。
而即將到來的5G與NVIDIA也同樣有關系。目前NVIDIA已經(jīng)與愛立信展開合作,通過CUDA核心,能夠提升5G vRAN性能,特別是在復雜的空間內(nèi),CUDA能夠加速解決物理空間內(nèi)的信號優(yōu)化的問題。
針對世界上最普及的ARM,NVIDIA也給出了一套能夠與ARM配套的解決方案。得益于PCIe標準,GPU也可以輕松與ARM完成連接。基于ARM,NVIDIA推出了NVIDIA HPC for ARM首個參考架構(gòu),可以使用Marvell、Ampere、富士通亦或者其他ARM的HPC處理器與Volta GPU連接。更厲害的是,每個ARM CPU最多可以連接4塊Volta GPU,擴展性能極其恐怖。
在現(xiàn)場,黃仁勛也毫不吝嗇的通過VMD ON ARM通過CUDA演示NAMD分子動力學模型的結(jié)果可視化處理,借助Marvell ThunderX2以及NVIDIA V100,并通過NVIDIA Optix光線追蹤器,并實現(xiàn)遠程流式傳輸。
與此同時,TensorFlow作為當今最重要的可言、云計算、工業(yè)、上也領域的HPC應用,也同樣被NVIDIA CUDA on ARM所支持。
而隨著深度學習不斷挖掘,NVIDIA在5年左右的時間內(nèi)將訓練性能提高了300倍以上,借助Volta、Tensor Core GPU、Chip-on-wafer封裝、HBM 3D堆棧存儲器、NVLink、DGX系統(tǒng),AI加速變得更快。
事實上NVIDIA AI已經(jīng)影響到了各行各業(yè),它出現(xiàn)在運輸、醫(yī)療、金融、零售中,NVIDIA也不斷為每種場景打造不同的平臺,例如用于深度學習訓練的DGX,用于超大規(guī)模云的HGX,用于邊緣計算的EGX,用于自治系統(tǒng)的AGX。
現(xiàn)在,NVIDIA AI也已經(jīng)被運用到百度推薦系統(tǒng)中,100多個推薦模型在百度中付諸實踐,這些模型每周都會進行更新,自動學習用戶潛在興趣,新條目和特征被持續(xù)更新。目前百度龐大的用戶潛在興趣數(shù)據(jù)包含了千億維稀疏離散特征和10TB embedding詞表,只有通過GPU加速訓練,才能在如此大規(guī)模的訓練中加速且節(jié)省成本。
同樣,阿里巴巴也接祖了NVIDIA加速計算平臺大規(guī)模部署先進的AI技術,包括T4 GPU、cuBLAS、自定義混合精度和推理加速軟件等。確保雙十一期間2684億人民幣,每秒幾十億次推薦請求,確保全天銷售額順利推進,所以一切也都借助了NVIDIA AI的運算支持。在NVIDA AI加持下,阿里巴巴已經(jīng)嫩鞏固支持比過去復雜6倍的模型,從而使點擊率提高10%。相比于CPU,T4將我們最大模型的吞吐量提高了100倍。
TensorRT 7的性能攀升在幫助各大廠商推進AI的同時,NVIDIA也發(fā)布了全新的NVIDIA TensorRT 7推理軟件,內(nèi)置新型深度學習編譯器。
該編譯器能夠自動優(yōu)化和加速遞歸神經(jīng)網(wǎng)絡與基于轉(zhuǎn)換器的神經(jīng)網(wǎng)絡。這些日益復雜的神經(jīng)網(wǎng)絡是AI語音應用所必需的。與在CPU上運行時相比,會話式AI組件速度提高了10倍以上,從而將延遲降低到實時交互所需的300毫秒閾值以下。
也就是說,在一套端到端的流程中,CPU推理延遲大概在3秒左右,但在T4 GPU上,整個過程只需要0.3秒。更重要的,原本TensorRT 5大概智能實現(xiàn)數(shù)十種不同的計算變化和優(yōu)化,但到了TensorRT 7,已經(jīng)可以做到1000種以上。
黃仁勛表示,現(xiàn)在技術已經(jīng)進入了一個機器可以實時理解人類語言的AI新時代。在原有的TensorRT 5的基礎上,各地開發(fā)人員能夠更快部署會話式AI服務,從而實現(xiàn)更自然的AI人機交互。在首批使用NVIDIA會話式AI加速能力的企業(yè)中,包括了阿里巴巴、百度、滴滴出行、美團、快手、平安、搜狗、騰訊和字節(jié)跳動等中國企業(yè)。
繼續(xù)為自動駕駛做足鋪墊針對自動駕駛領域,NVIDIA發(fā)布了Xavier繼任者NVIDIA DRIVE AGX Orin。
顧名思義,Orin是下一代機器人處理器SoC,它參數(shù)十分亮眼,包括170億個晶體管,8核64位CPU,200TOPS深度學習算例,重點是,它的計算性能相當于Xavier的7倍。這意味著這是一個從底層架構(gòu)上更新的AGX處理器,它的設計最早來自超算,擁有全新的功能安全特性,可以使CPU、GPU鎖步運行而提升容錯性,并且配備了全新的安全引擎保護數(shù)據(jù)不受網(wǎng)絡攻擊,以及與上一代Xavier兼容。
通過不同的組合,NVIDIA DRIVE 能夠適配L2到L5級別的自動駕駛功能,其中Orin能做到與Xavier兼容,完全由軟件定義。
在Orin宣布的同時,NVIDIA也宣布為滴滴提供自動駕駛和云計算解決方案,通過NVIDIA DRIVE,以及數(shù)據(jù)中心的NVIDIA GPU訓練機器學習算法,滴滴已經(jīng)能夠?qū)崿F(xiàn)L4幾倍的自動駕駛推理能力。
作為滴滴自動駕駛AI處理的一部分,NVIDIA DRIVE借助多個深度神經(jīng)網(wǎng)絡融合來自各類傳感器(攝像頭、激光雷達、雷達等)的數(shù)據(jù),從而實現(xiàn)對汽車周圍環(huán)境360度全方位的理解,并規(guī)劃出安全的行駛路徑。
用軟件定義機器人平臺整場演講的重頭戲,最終留給了Isaac SDK。Isaac SDK包括Isaac Robotics Engine(提供應用程序框架),Isaac GEM(預先構(gòu)建的深度神經(jīng)網(wǎng)絡模型、算法、庫、驅(qū)動程序和API),用于室內(nèi)物流的參考應用程序以及Isaac Sim的第一個版本(提供導航功能)。
全新Isaac SDK可以大大加快研究人員、開發(fā)人員、初創(chuàng)企業(yè)和制造商開發(fā)和測試機器人的速度。它使機器人能夠通過仿真獲得由人工智能技術驅(qū)動的感知和訓練功能,從而可以在各種環(huán)境和情況下對機器人進行測試和驗證。
這個套件包含了Training-in-Sim工作流,使用隨機域生成6D姿態(tài)圖像,用于訓練目標檢測、像素分割、2D姿態(tài)、3D姿態(tài)等諸多內(nèi)容。
最后現(xiàn)場,NVIDIA也給我們展示了一個會賣萌的Leonardo物體操縱機器人。通過模擬和真是世界的學習,Leonardo學會了如何遵守物理規(guī)則,在模擬的計算部分則運用到了GPU的PhysX 5.0物理引擎。
寫在最后可以看到長達2小時的GTC CHINA 2019演講中,新推出的芯片只有Orin一塊。NVIDIA更多的重心放在了軟件平臺和AI智能優(yōu)化上,通過硬件與軟件配合,發(fā)揮CUDA給GPU帶來的大規(guī)模并行處理優(yōu)勢,使得GPU走出游戲和渲染,找到了一個更廣闊的空間。
NVIDIA造GPU無疑是最擅長的,如何用好GPU,則需要無數(shù)工程師努力挖掘答案。無論是超算、AI、自動駕駛、邊緣計算,NVIDIA都已經(jīng)牢牢占住了自己的位置,足以見得GPU對專業(yè)領域而言,同樣具備強烈的吸引力。
責任編輯:wv
-
NVIDIA
+關注
關注
14文章
5592瀏覽量
109721 -
gpu
+關注
關注
28文章
5194瀏覽量
135431
發(fā)布評論請先 登錄
借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程
RSoft GPU加速技術重塑光子元件設計效率革命
NVIDIA RTX PRO 5000 Blackwell GPU的深度評測
在Python中借助NVIDIA CUDA Tile簡化GPU編程
NVIDIA RTX PRO 2000 Blackwell GPU性能測試
NVIDIA在ISC 2025分享最新超級計算進展
NVIDIA推出NVQLink高速互連架構(gòu)
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
NVIDIA GPU加速計算之路
評論