91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用CUTLASS實現(xiàn)高性能矩陣乘法

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:Matthew Nicely ? 2022-04-15 10:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

CUTLASS 是 CUDA C ++模板抽象的集合,用于在 CUDA 的所有級別和規(guī)模上實現(xiàn)高性能矩陣乘法( GEMM )。它結(jié)合了分層分解和數(shù)據(jù)移動的策略,類似于用于實現(xiàn)cuBLAS的策略。

CUTLASS 將這些“運動部件”分解為 C ++模板類抽象的可重用和模塊化的軟件組件。這些線程范圍、扭曲范圍、塊范圍和設(shè)備范圍的原語可以通過自定義平鋪大小、數(shù)據(jù)類型和其他算法策略進(jìn)行專門化和調(diào)優(yōu)。由此產(chǎn)生的靈活性簡化了它們在定制內(nèi)核和應(yīng)用程序中作為構(gòu)建塊的使用。

為了支持多種應(yīng)用程序, CUTLASS 為混合精度計算提供了廣泛的支持,提供了專門的數(shù)據(jù)移動,并為以下各項提供了多重累積抽象:

半精度浮點(FP16)、 BFloat16 (BF16)和張量浮點 32 (TF32)數(shù)據(jù)類型。

單精度浮點(FP32)數(shù)據(jù)類型。

雙精度浮點(FP64)數(shù)據(jù)類型。

整數(shù)數(shù)據(jù)類型(4b和8b)。

二進(jìn)制數(shù)據(jù)類型(1b)。

此外, CUTLASS 演示了針對 NVIDIA Volta 、 Turing 和 Ampere 體系結(jié)構(gòu)上實現(xiàn)的可編程高通Tensor 核的扭曲同步矩陣乘法操作。

CUTLASS 實現(xiàn)了高性能卷積(隱式 GEMM )。隱式 GEMM 是作為 GEMM 的卷積運算的公式。這允許 Cutslass 通過重用高度優(yōu)化的 warp-wide GEMM 組件和以下組件來構(gòu)建卷積。

關(guān)于作者

Matthew Nicely 于 2019 年 3 月加入 NVIDIA ,之前曾在美國 AL-Huntsville 的美國陸軍航空和導(dǎo)彈研究開發(fā)與工程中心工作。在那里,他專注于 CUDA 算法開發(fā)和 Jetson 系列的優(yōu)化。在 NVIDIA ,他曾在聯(lián)邦部門工作,協(xié)助 CUDA 的開發(fā)和優(yōu)化,以及在各種 NVIDIA 工具集上為客戶提供教育和概念驗證,最近轉(zhuǎn)為 math libraries 產(chǎn)品經(jīng)理。 2019 年,他獲得了博士學(xué)位。計算機工程學(xué)位,專注于 GPU 的算法優(yōu)化。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5597

    瀏覽量

    109793
  • CUDA
    +關(guān)注

    關(guān)注

    0

    文章

    127

    瀏覽量

    14482
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    CDCVF25084:高性能時鐘乘法器的深度剖析

    CDCVF25084:高性能時鐘乘法器的深度剖析 在電子設(shè)計領(lǐng)域,時鐘信號的處理至關(guān)重要,它直接影響著整個系統(tǒng)的穩(wěn)定性和性能。今天,我們就來深入探討德州儀器(Texas Instruments
    的頭像 發(fā)表于 02-10 13:50 ?152次閱讀

    如何在NVIDIA CUDA Tile中編寫高性能矩陣乘法

    本博文是系列課程的一部分,旨在幫助開發(fā)者學(xué)習(xí) NVIDIA CUDA Tile 編程,掌握構(gòu)建高性能 GPU 內(nèi)核的方法,并以矩陣乘法作為核心示例。
    的頭像 發(fā)表于 01-22 16:43 ?4855次閱讀
    如何在NVIDIA CUDA Tile中編寫<b class='flag-5'>高性能</b><b class='flag-5'>矩陣</b><b class='flag-5'>乘法</b>

    深入剖析ADL5391:高性能模擬乘法器的卓越之選

    深入剖析ADL5391:高性能模擬乘法器的卓越之選 在電子工程師的設(shè)計工具箱中,模擬乘法器是實現(xiàn)各種復(fù)雜信號處理功能的關(guān)鍵組件。今天,我們要深入探討一款來自Analog Devices
    的頭像 發(fā)表于 01-15 15:05 ?222次閱讀

    深入剖析AD632:高性能四象限乘法器/除法器

    深入剖析AD632:高性能四象限乘法器/除法器 在電子工程師的日常設(shè)計中,高性能的模擬信號處理芯片是不可或缺的工具。今天,我們就來詳細(xì)探討一下Analog Devices公司的AD632——一款內(nèi)部
    的頭像 發(fā)表于 01-15 15:00 ?180次閱讀

    高性能四象限模擬乘法器AD734:精準(zhǔn)與高速的完美結(jié)合

    高性能四象限模擬乘法器AD734:精準(zhǔn)與高速的完美結(jié)合 在電子設(shè)計領(lǐng)域,高性能模擬乘法器一直是實現(xiàn)復(fù)雜信號處理和精確控制的關(guān)鍵組件。今天,我
    的頭像 發(fā)表于 01-15 14:55 ?227次閱讀

    高性能模擬乘法器AD834:特點、應(yīng)用與設(shè)計要點

    高性能模擬乘法器AD834:特點、應(yīng)用與設(shè)計要點 引言 在電子工程師的日常工作中,高性能模擬乘法器是實現(xiàn)各種復(fù)雜信號處理和計算的關(guān)鍵元件。A
    的頭像 發(fā)表于 01-15 14:55 ?205次閱讀

    AD539:高性能寬帶雙聲道線性乘法/除法器的深度剖析

    AD539:高性能寬帶雙聲道線性乘法/除法器的深度剖析 在電子工程師的日常設(shè)計工作中,尋找高性能、多功能的模擬器件至關(guān)重要。AD539作為一款低失真模擬乘法器,具有雙信號通道和線性增益
    的頭像 發(fā)表于 01-15 14:45 ?236次閱讀

    AD532:高性能單芯片乘法器/除法器的卓越之選

    AD532:高性能單芯片乘法器/除法器的卓越之選 在電子設(shè)計領(lǐng)域,乘法器和除法器是實現(xiàn)復(fù)雜運算和信號處理的關(guān)鍵組件。而AD532作為一款預(yù)微調(diào)的單芯片
    的頭像 發(fā)表于 01-15 14:45 ?239次閱讀

    SLG47525/28:高性能可編程混合信號矩陣的深度剖析

    SLG47525/28:高性能可編程混合信號矩陣的深度剖析 在電子設(shè)計領(lǐng)域,尋求小型化、低功耗且功能強大的組件是永恒的追求。Renesas的SLG47525/28可編程混合信號矩陣就是這樣一款
    的頭像 發(fā)表于 12-26 18:15 ?1050次閱讀

    一個提升蜂鳥E203性能的方法:乘除法器優(yōu)化

    性能十分低下。 對于乘法操作,為了減少乘法操作所需的周期數(shù), MDV 對乘法采用基 (Radix-4 ) 的Booth 編碼,進(jìn)行一次乘法
    發(fā)表于 10-27 07:16

    關(guān)于E203內(nèi)核高性能乘法器優(yōu)化(二)

    不同加法樹與乘法器結(jié)合 1.傳統(tǒng)Booth算法+Wallace樹加法器 以下數(shù)據(jù)在32位寬乘法實現(xiàn)時結(jié)果供參考: 相同條件下,陣列乘法器面積最小,Wallace樹
    發(fā)表于 10-23 07:33

    關(guān)于E203內(nèi)核高性能乘法器優(yōu)化(一)

    一、簡介 對于cpu各類測試程序,設(shè)計一個高性能的硬件乘法器模塊無疑是提分最快的法案,本文將從乘法算法開始,到rtl設(shè)計進(jìn)行詳細(xì)的解釋說明,并附帶一部分源碼。 二、乘法算法
    發(fā)表于 10-23 06:09

    蜂鳥乘法器設(shè)計分享

    ,蜂鳥E203中乘法實現(xiàn)使用基4(Radix-4)的Booth編碼,共產(chǎn)生16個部分積,最終采用循環(huán)移位方式計算最終結(jié)果,以犧牲性能的方式換取了面積損耗。
    發(fā)表于 10-22 08:21

    e203乘法運算結(jié)構(gòu)及算法原理

    e203乘法部件結(jié)構(gòu) E203的乘法操作由一個17周期的乘法實現(xiàn)。為了提升性能,該乘法器采用
    發(fā)表于 10-22 06:43

    Arm KleidiAI與XNNPack集成實現(xiàn)AI性能提升

    INT4 矩陣乘法 (matmul) 優(yōu)化以增強 Google Gemma 2 模型性能開始,到后續(xù)完成多項底層技術(shù)增強,Arm 在 XNNPack 上實現(xiàn)了顯著的
    的頭像 發(fā)表于 08-08 15:19 ?2829次閱讀
    Arm KleidiAI與XNNPack集成<b class='flag-5'>實現(xiàn)</b>AI<b class='flag-5'>性能</b>提升