91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

IMG GPU的幾個架構特色

Dbwd_Imgtec ? 來源:Imagination Tech ? 作者:黃燁鋒 ? 2022-07-28 10:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著HPC應用地位的日益攀升,GPU的受關注程度似乎達到了新高度。不過現(xiàn)在探討的重點,更偏向于GPU在數(shù)據(jù)中心、汽車等設備之上的應用;畢竟手機、PC之類的消費電子產(chǎn)品近半年略有式微之感。不過原本,GPU在更多市場發(fā)揮作用也是當前的大趨勢。

其中比較顯著的一個議題,就是不只是手機之類的電池驅動型設備對元件功耗、能效有高要求,像數(shù)據(jù)中心這類原本對芯片功耗沒那么敏感、更偏向高性能的場景,如今也在追求高能效,和算力密度(單位空間內所能提供的算力);以及如汽車電動化趨勢之下,“續(xù)航里程焦慮”也讓其中各類組件的功耗、能效變得尤為關鍵。負責圖形乃至通用計算加速的GPU自然是其中之一;性能和功耗雙方需要進一步得到兼顧。

最近Khronos & Imagination技術研討會在上海舉辦,主體上還是圍繞Khronos的API標準,以及Imagination的GPU IP展開的技術探討。包括芯動科技、芯馳科技等在內的下游芯片設計企業(yè),以及騰訊、字節(jié)跳動等應用端企業(yè)也參與了這次活動。

我們比較感興趣的是,在應對當前GPU發(fā)展趨勢的過程中,Imagination在技術層面都做了些什么。本次研討會的多個議題實際上都著力于解答該問題。而Imagination對GPU架構和技術的呈現(xiàn),也有利于我們進一步理解GPU技術現(xiàn)如今正在發(fā)生怎樣的轉變。

市場對GPU的新需求

Imagination對于GPU芯片當前的市場需求與趨勢方面的總結大致上有下面這4點:

d5443c6a-0e1f-11ed-ba43-dac502259ad0.png

其一是擴展性、彈性(scalability)要求,從手機這樣的小設備,到云數(shù)據(jù)中心規(guī)模級別的算力都覆蓋——如果在芯片架構上能夠提供對應的彈性,自然能夠達成更高的芯片設計效率。這似乎也是當代幾個比較主流的GPU供應商,在做架構設計時普遍考慮的問題。

這其中有一些對應的新技術和新需求涌現(xiàn),例如chiplet、先進封裝。汽車應用方向上,則有FuSa功能安全方面的需求——“不管冗余設計要求算兩遍,還是某些功能失效后怎么辦的問題,都需要考慮。”

第二,就是文首提到的能耗比、熱效能、算力密度。不同方向的應用當前對“效率”都越來越看重,不同規(guī)模的設備都開始受到功耗、發(fā)熱等方面的限制。這方面“我們不能單單以制造工藝的進步,來主導我們往前走?!?/p>

第三,則在于帶寬方面的限制。主流馮諾依曼體系架構中,制約芯片性能的關鍵在數(shù)據(jù)存取和通信的過程中——這是能耗與熱量開銷的大頭;另外在chiplet之類的新技術大規(guī)模應用之際,chiplet之間的數(shù)據(jù)同步、通信延遲等問題也都需要考慮進來。不過實際上,我們認為帶寬問題也可以歸屬到第二點。Imagination將這一點單獨拿出來談,當與其GPU的TBDR架構有很大關系。

第四個新需求在安全(security)方面。尤其當GPU應用于云以后,GPU也成為安全鏈上的一環(huán),硬件層面的安全支持也顯得很重要。實際上像英偉達這樣的GPU企業(yè),這兩年的GTC上也越來越多地去談信息安全話題,亦能明確這方面的未來趨勢。

IMGGPU的幾個架構特色

針對這幾個問題,Imagination在研討會上給出了一些“方案”,或者說其PowerVR GPU IP產(chǎn)品現(xiàn)有的一些架構特性,是如何去滿足市場需求的。對PowerVR比較熟的讀者應該也都不會陌生。

首先是針對架構彈性擴展的問題,這一直以來都是Imagination的GPU特色:即模塊化、層級化的方式,通過一種架構的彈性化擴展,覆蓋從手機到服務器市場的各類需求。

d55963a6-0e1f-11ed-ba43-dac502259ad0.png

比如這一代CXT架構,如上圖中左下的CXT-16-512 RT1(16 Pixels/Clock,512 FP32 FLOPs/Clock,1個RT核心),規(guī)??梢苑哆_成填充率、算力等性能成倍提升,直至4倍時形成單core——在有更高性能要求時還有多核的MC2-MC8不同規(guī)模版本;從多核再擴展到多實例(multi-instance)——多GPU卡應用于服務器和云市場。

d5767630-0e1f-11ed-ba43-dac502259ad0.png

Imagination表示,在具體設計上加上標準NOC片上網(wǎng)絡技術,這樣的彈性方案也很符合chiplet結構的需求——復用相同的模塊,將多個模塊以chiplet的方案封裝到一起,形成更大的GPU。其關鍵點也在于避免采用過于中心化的邏輯,以及復雜信號設計,而采用相對松散、去中心化的結構,靈活性更好。

這種設計也在很多層面帶來了好處,比如說硬件虛擬化、汽車功能安全的冗余設計,以及各chiplet之間的異步操作等等。

d58935a4-0e1f-11ed-ba43-dac502259ad0.png

其次Imagination談到了tile-based,也就是基于分塊的渲染架構在滿足當代GPU需求方面的優(yōu)勢。傳統(tǒng)意義上,基于tile的渲染方式一直是移動領域的重要藝能,主要是考慮到移動設備的帶寬、功耗等方面受到的限制都比較大。Imagination、蘋果、Arm高通的GPU方案都是基于tile的渲染方式。

著眼于前文提到不同應用市場對于帶寬、功耗方面的新需求,這種基于tile的渲染方式在移動之外的市場也能延續(xù)效率上的顯著優(yōu)勢。因為基于tile的處理方式,是在對對象做sort以后,以tile為單位做處理——如此一來不少處理過程就能在片內cache上做,也就提升了能效,降低了功耗;寫出tile更加的"burst effective",對于cache與內存相關操作更友好。

另外基于tile渲染還有個優(yōu)勢,按照Imagination的說法,它天然地更適合彈性擴展。因為每個tile都是相對獨立的,“也就有利于在多核或多設備之間分發(fā)這些tile,也有利于達成性能的線性scaling”。相對的“傳統(tǒng)IMR(立即渲染模式)以三角形為單位的渲染方式”就無法達成這樣的效果。

d5999ef8-0e1f-11ed-ba43-dac502259ad0.png

在tile-based基礎上,接下來當然就要提到Imagination長久以來引以為傲的TBDR了,這其實一直也是Imagination對自家GPU IP的宣傳點,如上圖所示。在流程上同在采用TBDR的廠商主要還有蘋果。藉由所謂的perfect tiling、culling,提升帶寬利用率和整體效率也都算是TBDR的傳統(tǒng)特色了。

當然其中有很多細節(jié),比如說三角形binning精準地落到對應的tile之上,避免數(shù)據(jù)的overfetch;再比如更高效的場景中被遮擋三角形的拋棄、對于后面光柵化(rasterization)階段貢獻很低的小型三角形的拋棄等等,對于縮減帶寬、功耗都是有價值的。

還有數(shù)據(jù)的硬件壓縮也是縮減帶寬需求的重要組成部分。

d5b2e50c-0e1f-11ed-ba43-dac502259ad0.png

TBDR中的“D”是指“延后”渲染,在流程上和一般的TBR還是有不同。在tiling之后,primitive list和頂點數(shù)據(jù)是有一次寫出的?!皩懗鍪且裻ile list表達清楚,哪個三角形在對應的tile區(qū)域內,在這個環(huán)節(jié)表達清楚。在此之后,其他任務就相對獨立,都在tile上面,通過on-chip memory來做HSR消隱等操作?!?/p>

尤其HSR(隱面消除)所在位置,一直都是Imagination這種TBDR結構提升效率的優(yōu)勢。本質也在于盡早拋棄不需要的部分,在后期階段也就節(jié)約了不必要的資源開支。Imagination表示在考慮對框架做改進——在幾何階段,Imagination內部正考慮引入新的特性,以其令其更有利于多核GPU的任務分發(fā),提升并行率;另外對于需要寫出到系統(tǒng)內存的數(shù)據(jù),“我們也在考慮,可以通過壓縮來處理這幾塊buffer的data?!盜magination在主題演講中談到。

d5da5984-0e1f-11ed-ba43-dac502259ad0.png

數(shù)據(jù)壓縮也是節(jié)約帶寬的重要技術。針對不同階段、各種數(shù)據(jù)的壓縮,Imagination形容“渲染里面幾乎所有的data,都做壓縮”。包括對開發(fā)者可見的紋理壓縮以及無需開發(fā)者關心的幾何壓縮。

還有Imagination花了不少工夫的IMGIC,針對系統(tǒng)內存中render target的讀寫frame buffer image壓縮——應當是Imagination在發(fā)布B系列GPU的時候引入的,用于替代此前逐漸不再有優(yōu)勢的PVRIC。無損和有損壓縮均支持:對于有損壓縮,據(jù)說能夠在對質量僅有輕微影響的情況下,獲得非常大的壓縮比。

Imagination表示,相比于市面上的競爭對手,其GPU可達成20-40%的帶寬節(jié)約——上圖的測試場景和游戲中都有所體現(xiàn)。帶寬需求更低,也就意味著能夠提供更好的持續(xù)性能或者更低的功耗。

d5eb03ec-0e1f-11ed-ba43-dac502259ad0.png

順應時代發(fā)展趨勢,GPU從硬件層面開始注重安全以及虛擬化特性。上面這張圖的例子是當GPU應用于汽車之時——當代座艙內就有好幾塊屏幕,用途各異——它們在系統(tǒng)內可能會由同一個GPU來驅動。那么虛擬化在此就能發(fā)揮作用,包括從操作系統(tǒng)層級來做性能負載的分配。

還有負載的安全和隔離——比如儀表盤、導航、娛樂系統(tǒng)都跑在一個GPU上,則在某個系統(tǒng)崩潰時不會影響到儀表盤,即功能安全相關負載——GPU在此就是將使用場景,在硬件級上實現(xiàn)切分。另外在其他一些使用場景上,比如手機之上,對應的特性就能對神經(jīng)網(wǎng)絡加速,和UI特性做到資源均衡分配。當然還有在云服務器上,硬件虛擬化多租戶也是十分必要的特性。

d605efc2-0e1f-11ed-ba43-dac502259ad0.png

最后一個亮點特性,在于其firmware processor固件處理器上。前年我們細談Imagination的A系列GPU微架構時,就特別談到過當時架構改進中新增的這個“固件功能”。這次的研討會上,固件功能也被當作一個重點做了介紹。

基于其可編程性,這個processor可以幫助降低主CPU的負載開銷?!颁秩镜臅r候,有很多中斷信號或申請信號,就不需要回到主CPU去,這個小的CPU也能響應?!惫碳δ芤材茏龅教摂M化隔離,“我們甚至能夠做到每一個USC給某一個應用來用。”

另外,不少復雜調度、安全、保護特性需要這樣的固件功能。應對未來的新需求,自然也能通過固件來做調整。而且其可編程可擴展性,就令其很適用于調試,當GPU崩潰時能夠給出完整的數(shù)據(jù)log。所以這對于功能安全的錯誤分析也就很有幫助。而在上面跑個debugserver,連接GDB來做debug,就是個不錯的debug工具。

與此同時“firmware其實知道GPU里面的不少信息,包括寄存信息、memory信息、當前繪制的workload信息——基于此可以和外部設備做交互?!蓖ㄟ^GPIO口進行電源管理?!癴irmware處理器知道GPU有多忙,那么我們就能快速高效地,在硬件上原生實施DVFS機制?!薄八钥偟膩碚f,在帶寬效率、能耗比以及安全方面,它都能帶來幫助?!?/p>

以光追架構為例

如果要用一個詞來總結Imagination當前做GPU IP的理念的話,應該就是“efficiency”(效率)了,所以Imagination才會在研討會上反復強調能效、算力密度、帶寬效率這些詞。

我們倒是覺得,如果要舉一個具體的例子的話,則Imagination的光追技術及架構應該是能夠代表對“效率”一詞的貫徹的。不過受限于篇幅,最后只能再簡單談一談。

d638c03c-0e1f-11ed-ba43-dac502259ad0.png

Imagination在技術白皮書里談到過,他們將光追實現(xiàn)分成了6個等級,此前我們詳細撰文探討過。除了L0是早年各自為政的技術探索、L1是從軟件層面來做光追、L2部分加入硬件專門的支持(ray-box與ray-triangle相交處理問題),L3往后實則是我們現(xiàn)在普遍理解中的光線追蹤技術。

L2、L3把光線遍歷、追蹤和監(jiān)控算法通過專門的硬件來實現(xiàn),在性能和效率上有了成倍提升。關鍵是這里的L4:Imagination認為L4是要在L3硬件實現(xiàn)的基礎上,給BVH(bounding volume hierarchy,層次包圍體)處理再加個“Coherency Sorting”。

因為在Imagination看來,要在對功耗非常敏感的移動平臺上實踐光線追蹤,還需要更進一步提升效率??紤]光線穿過BVH有不同的路徑,需要頻繁進行內存訪問,不同路徑又與不同三角形相交加重了shader的工作量。所以這里coherency sorting的意義在于對具有相干性的光線進行sorting——比如某些材質反射同方向光線做分組,來達成更高的數(shù)據(jù)復用、提升并行ALU管線利用率。

在Imagination看來,coherency sorting之于光線追蹤,就相當于tile-based rendering對于GPU效率的意義。這一點實則是能夠看出Imagination在GPU IP上對“efficiency”一詞的貫徹的。

d647fff2-0e1f-11ed-ba43-dac502259ad0.png

上面這張圖是Imagination當前光追的硬件實現(xiàn):一個RAC光追單元簇,由以上這些主要的單元模塊構成。光追L4實現(xiàn)就在其中的PCG(packet coherency gathering)單元上:它會對所有活躍光線做分析,然后對“相干”光線做分組。

這也是Imagination眼中,未來手機這類功耗受限的設備上實現(xiàn)光追的必行之策。而且這個特性是不需要開發(fā)者去關心的。

Imagination表示,相比于市面上的其他解決方案,這種光追架構能夠在光追負載上最多達成2.5倍的效率領先。

d667799a-0e1f-11ed-ba43-dac502259ad0.png

另外,前文提到的各種技術特性實則都能在Imagination的光追架構上有所體現(xiàn)。比如彈性擴展方案:此處GPU的基本單元是其中的SPU。RAC作為光追單元簇也是包含其中,并可做擴展的——兩個ALU引擎共享一個RAC。而SPU本身也包含了其他完整的固定功能單元。

Imagination在推行高能效GPU一事上的思路還是相當清晰的,雖說研討會上談到的不少技術仍有偏向自家架構和技術的意思,不過大方向的確沒錯。即不只是手機這樣的移動設備,包括PC、汽車、數(shù)據(jù)中心、云等不同規(guī)模GPU算力需求的設備和應用場景都會越來越看重效率——不管是帶寬效率、算力密度還是整體能效比。

這就要求在架構層面有可擴展的彈性設計、各種能夠節(jié)約帶寬資源和提升效率的技術,再加上符合現(xiàn)代GPU發(fā)展需求的新特性:如安全、虛擬化。不管達成這些目標的具體技術是不是基于tile的、延后渲染的,或者各類數(shù)據(jù)壓縮方案,未來市場對GPU的技術需求都將是如此。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    463

    文章

    54063

    瀏覽量

    466860
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5209

    瀏覽量

    135602
  • 架構
    +關注

    關注

    1

    文章

    533

    瀏覽量

    26605

原文標題:從手機到云,如果GPU都需要能效,那架構該長什么樣?

文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Visionfive 2 缺少文件img-gpu-powervr-bin-1.17.6210866.tar.gz怎么解決?

    您好,我開始按照 SDK 快速入門指南構建鏡像。 我失敗了 WGEThttp://sources.buildroot.net/img-gpu
    發(fā)表于 03-11 07:08

    踩坑實錄:RK3588單獨編譯boot.img無法啟動?這個GPU配置才是關鍵!

    做 RK3588 嵌入式開發(fā)的同學,大概率都遇到過 “編譯成功卻啟動失敗” 的糟心場景 —— 明明按官方流程單獨編譯了 boot.img,燒錄后設備卻卡在開機 logo,或者直接進入不了系統(tǒng),查日志、換編譯器、核對指令都沒用,最后發(fā)現(xiàn)竟是一個容易被忽略的 GPU 配置在
    的頭像 發(fā)表于 02-10 16:54 ?2192次閱讀
    踩坑實錄:RK3588單獨編譯boot.<b class='flag-5'>img</b>無法啟動?這個<b class='flag-5'>GPU</b>配置才是關鍵!

    摩爾線程公布全功能GPU架構路線圖:以“花港”新架構與萬卡訓練集群,開啟自主算力新時代

    MUSA統(tǒng)一架構為核心的全棧技術成果,全面展現(xiàn)公司在高端全功能GPU領域的關鍵突破與前瞻布局。 本次發(fā)布的核心成果包括: 1、新架構“花港”亮相:全功能GPU
    發(fā)表于 12-20 12:51 ?1089次閱讀
    摩爾線程公布全功能<b class='flag-5'>GPU</b><b class='flag-5'>架構</b>路線圖:以“花港”新<b class='flag-5'>架構</b>與萬卡訓練集群,開啟自主算力新時代

    汽車中的GPU是如何使用的?

    (HMI)的發(fā)展尤為迅猛。隨著電子電氣架構(EEA)的集中化,車輛對高性能計算能力的需求顯著提升,GPU(圖形處理單元)的靈活性、可擴展性以及高效并行計算能力,使其成為支持這些創(chuàng)新應用的核心組件
    的頭像 發(fā)表于 12-03 14:45 ?9604次閱讀
    汽車中的<b class='flag-5'>GPU</b>是如何使用的?

    沐曦GPU與龍蜥操作系統(tǒng)完成適配

    及量產(chǎn),包括 GPU 架構定義、GPU IP 設計、GPU SoC 設計及 GPU 系統(tǒng)解決方案的量產(chǎn)交付全流程。
    的頭像 發(fā)表于 10-17 15:06 ?1245次閱讀

    如何看懂GPU架構?一分鐘帶你了解GPU參數(shù)指標

    GPU架構參數(shù)如CUDA核心數(shù)、顯存帶寬、TensorTFLOPS、互聯(lián)方式等,并非“冰冷的數(shù)字”,而是直接關系設備能否滿足需求、如何發(fā)揮最大價值、是否避免資源浪費等問題的核心要素。本篇文章將全面
    的頭像 發(fā)表于 10-09 09:28 ?1184次閱讀
    如何看懂<b class='flag-5'>GPU</b><b class='flag-5'>架構</b>?一分鐘帶你了解<b class='flag-5'>GPU</b>參數(shù)指標

    適應邊緣AI全新時代的GPU架構

    電子發(fā)燒友網(wǎng)站提供《適應邊緣AI全新時代的GPU架構.pdf》資料免費下載
    發(fā)表于 09-15 16:42 ?47次下載

    對 AN65974 項目中 SF_streamIN.img 和 SF_streamOUT.img 的使用有疑問,求解答

    我對 AN65974 項目中 SF_streamIN.img 和 SF_streamOUT.img 的使用有疑問 目前,我正在使用 SF_streamIN.img 通過 FX3 成功地將數(shù)據(jù)從
    發(fā)表于 08-15 08:17

    aicube的n卡gpu索引該如何添加?

    請問有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經(jīng)安裝了cuda和cudnn,在全局的py里添加了torch,能夠調用gpu,當還是只能看到默認的gpu0,顯示不了gpu1
    發(fā)表于 07-25 08:18

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】+NVlink技術從應用到原理

    前言 【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」書中的芯片知識是比較接近當前的頂尖芯片水平的,同時包含了芯片架構的基礎知識,但該部分知識比較晦澀難懂,或許是由于我一直從事的事芯片
    發(fā)表于 06-18 19:31

    GPU架構深度解析

    GPU架構深度解析從圖形處理到通用計算的進化之路圖形處理單元(GPU),作為現(xiàn)代計算機中不可或缺的一部分,已經(jīng)從最初的圖形渲染專用處理器,發(fā)展成為強大的并行計算引擎,廣泛應用于人工智能、科學計算
    的頭像 發(fā)表于 05-30 10:36 ?1895次閱讀
    <b class='flag-5'>GPU</b><b class='flag-5'>架構</b>深度解析

    ARM Mali GPU 深度解讀

    ARM Mali GPU 深度解讀 ARM Mali 是 Arm 公司面向移動設備、嵌入式系統(tǒng)和基礎設施市場設計的圖形處理器(GPU)IP 核,憑借其異構計算架構、能效優(yōu)化和生態(tài)協(xié)同,成為全球移動
    的頭像 發(fā)表于 05-29 10:12 ?4425次閱讀

    又一顆國產(chǎn)GPU芯片成功點亮!6nm制程,自研TrueGPU架構

    電子發(fā)燒友網(wǎng)綜合報道 近日消息,礪算科技宣布其首顆自研架構全自主知識產(chǎn)權GPU芯片在封裝回片后已成功點亮,結果符合預期。 ? 礪算科技成立于2021年,是一家致力于研發(fā)高性能GPU的公司。礪算科技首
    發(fā)表于 05-29 00:48 ?2751次閱讀

    iTOP-3588S開發(fā)板四核心架構GPU內置GPU可以完全兼容0penGLES1.1、2.0和3.2。

    ,8GB內存,32GBEMMC。 四核心架構GPU內置GPU可以完全兼容0penGLES1.1、2.0和3.2。 內置NPU RK3588S內置NPU,支持INT4/INT8/INT16/FP16混合運算
    發(fā)表于 05-15 10:36