91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

TVM中schedule介紹

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2022-02-08 17:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:安平博,Xilinx高級工程師;來源:AI加速微信公眾號

Schedule是和硬件體系結構相關的一些列優(yōu)化,Halide在其文章中對其做了以下定義:

1 When and where should be the value at each coordinate in each function be computed?

2 Where should they be stored?

3 How long are values cached and communicated across multiple consumers, and when are they independently recomputed by each?

第一條是描述了數(shù)據(jù)計算順序對性能的影響,第二條是數(shù)據(jù)的存儲位置對性能影響,最后一條是多線程處理過程中,不同線程數(shù)據(jù)應該如何進行交互。

參考文章:https://zhuanlan.zhihu.com/p/94846767,常用的shcedule有:

1 cache_read

將數(shù)據(jù)存儲到片上緩存,減少訪問數(shù)據(jù)時間。

2 cache_write

將結果寫入片上緩存,然后再寫入片外緩存。當然這里的片上和片外并不是絕對的概念,也可以理解為不同層次的存儲結構。

3 set_scope

為數(shù)據(jù)指定存儲位置,相比于cache_read和cache_write提供了更靈活的指定數(shù)據(jù)存儲方式。本質上是相同的。

4 storage_align

在我看的文章中,storage_align是針對GPU shared memory的一個優(yōu)化,目的是為了減少同一個bank的訪問沖突。在GPU中shared memory被分割成多個bank,這些bank可以被獨立線程同時訪問。Storage_align就是為了將數(shù)據(jù)和bank大小匹配,減少bank conflict的發(fā)生。AI芯片中也有類似的問題,只有盡量減少bank沖突的發(fā)生,才能最大化并行計算。

5 compute_at

不懂CUDA,所以對文章中的代碼不是很理解,但是從其解釋看,對于多次循環(huán)的計算(或者多維計算),可以通過并行計算來降維。

6 compute_inline

將獨立操作轉化為內(nèi)聯(lián)函數(shù),有點類似FPGA上的流水線計算。轉化成內(nèi)聯(lián)函數(shù)從上層層面減少了stage。在FPGA中也有類似問題,可以將具有相同迭代的多條指令放在一起執(zhí)行。

7 compute_root

Compute_at的反操作。

8 fuse

將多個循環(huán)iter融合為一個iter。

9 split

Fuse的反操作,將一次循環(huán)迭代拆分為多次。

10 reorder

調(diào)整循環(huán)計算迭代順序。

11 tile

Tile也是將循環(huán)迭代進行拆分,拆分多次計算。是split+reorder。

12 unroll

將循環(huán)展開,增加并發(fā)執(zhí)行。

13 vectorize

將循環(huán)迭代替換成ramp,可以通過SIMD指令實現(xiàn)數(shù)據(jù)批量計算,也就是單指令多數(shù)據(jù)計算。這在AI加速中會很常用,每條指令都是多數(shù)據(jù)計算的。

14 bind

CUDA中使用的優(yōu)化方法,將iter綁定到不同線程,實現(xiàn)并發(fā)計算。

15 parallel

實現(xiàn)多設備并行.

16 pragma

可以在代碼中人為添加編譯注釋,人為干預編譯優(yōu)化。HLS中就是通過這樣的方式來實現(xiàn)c的硬件編程的。

17 prefetch

將數(shù)據(jù)計算和load后者store數(shù)據(jù)重疊起來,在FPGA中是很常見優(yōu)化方法。

18 tensorize

將tensor作為一個整體匹配硬件的計算核心,比如一個卷積運算就可以實現(xiàn)在FPGA上的一個匹配。

文章https://zhuanlan.zhihu.com/p/166551011 是通過官網(wǎng)的一個例子來介紹schedule的。在這個例子中,首先利用te的節(jié)點表達式建立了計算函數(shù),然后調(diào)用create_schedule來創(chuàng)建schedule實例,然后再調(diào)用lower函數(shù)實現(xiàn)schedule優(yōu)化。代碼如下:

# declare a matrix element-wise multiply A = te.placeholder((m, n), nam) B = te.placeholder((m, n), nam) C = te.compute((m, n), lambda i, j: A[i, j] * B[i, j], nam) s = te.create_schedule([C.op]) # lower will transform the computation from definition to the real # callable function. With argument `simple_mode=True`, it will # return you a readable C like statement, we use it here to print the # schedule result. print(tvm.lower(s, [A, B, C], simple_mode=True))

我這里依然延續(xù)上一章的內(nèi)容,看代碼中關于schedule的處理。

在上一章我們在codegen生成中,通過以下調(diào)用鏈轉到了schedule的處理。Codegen -> VisitExpr(CallNode* op) -> relay.backend._CompileEngineLower -> LowerInternal。LowerInternal函數(shù)為:

o4YBAGAJhSOAPhF1AAF7w2uy4BE784.png

如果是外部定義的編譯器,就只是建立cache_node節(jié)點和cache_func。如果是使用內(nèi)部編譯器,就會調(diào)用CreateSchedule建立schedule。接下來調(diào)用鏈為CreateSchedule -> ScheduleGetter.create -> te::create_schedule -> Schedule。create_schedule函數(shù)調(diào)用在文件re/schedule.h和te/schedule_lang.cc中。

create_schedule中主要有兩件工作:

1 創(chuàng)建ReadGraph,獲取post-dfs順序的算符圖。

2 初始化stage。

TVM中引入了stage的概念,一個op相當于一個stage,schedule優(yōu)化是對stage的一個更改,可以增加,刪減,更改其特性等。

pIYBAGAJhWKALtoXAAExsOmziHM113.png

通過createReadGraph可以遍歷op圖,返回op和其依賴的tensor列表。和遍歷有關的主要函數(shù)為:

Op -> InputTensors -> PostOrderVisit -> IRApplyVisit,在IRApplyVisit中定義了VisitExpr和VisitStmt函數(shù)用于遍歷節(jié)點。

pIYBAGAJhaOAPU1EAAOCUW3ZpIQ102.png

Stmt節(jié)點通常是節(jié)點中的主體實現(xiàn),PrimExpr是TIR中節(jié)點的一個簡單表達式。比如if節(jié)點:

o4YBAGAJheSAGUfwAAIKQRN_Atw687.png

ReadGraph創(chuàng)建完成后,通過PostDFSOrder來獲取post-dfs列表,其函數(shù)具體實現(xiàn)在graph.cc中,

o4YBAGAJhiSARaKbAAKhr5FEruU905.png

通過不斷迭代來進行深度優(yōu)先搜索。

接下來是對stage進行初始化。

首先對postorder中的所有op初始化一個stage對象。我們看以下stage的定義:

Stage類中主要定義了set_scope, compute_at, compute_root, bind, split, fuse等幾種優(yōu)化算法。同時定義了StageNode,在StageNode中定義了和優(yōu)化相關的變量,包括op,iter變量等??匆幌聅tage初始化代碼:

o4YBAGAJhmOAewapAAHNRZ9z5nY829.png

關鍵的幾個變量lef_iter_vars,all_iter_vars,這些有什么作用還需要深入看優(yōu)化函數(shù)的代碼。我們看幾個schedule函數(shù),先看一個最簡單的:compute_inline。代碼只有一行:

(*this)->attach_type = kInline

對于標記了kInline的節(jié)點,在lower的時候會進行處理。應該會將其直接和調(diào)用的節(jié)點結合,合并兩個op。

再看fuse函數(shù),其代碼為:

pIYBAGAJhqSAEGcxAAMXAmXWJb8660.png

IterVar表示計算中坐標軸,比如一個兩級循環(huán),每級循環(huán)就是一個axis。從代碼中看出,fuse函數(shù)會對輸入的所有axis進行合并,用fused變量替換合并后的axis。

這塊代碼比較抽象,先熟悉以下流程,之后再深入讀一下。

審核編輯:何安

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • TVM
    TVM
    +關注

    關注

    0

    文章

    19

    瀏覽量

    3957
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    能否詳細介紹一下MOSFET在電機控制的作用是什么?

    能否詳細介紹一下MOSFET在電機控制的作用?
    發(fā)表于 12-22 13:11

    泰凌微:布局端側AI,產(chǎn)品支持谷歌LiteRT、TVM開源模型

    。 ? 公司發(fā)布的基于TL721X系列芯片的TL-EdgeAI平臺,支持谷歌LiteRT、TVM等開源模型,是目前世界上功耗最低的智能物聯(lián)網(wǎng)連接協(xié)議平臺。其芯片已在谷歌(Google)的Pixel Bud Pro 2智能耳機方案中被采用。公司將繼續(xù)深化與谷歌的合作關系。 ? 圍繞三
    的頭像 發(fā)表于 12-15 08:21 ?1w次閱讀

    高頻OTA時代,如何用SIL測試兼顧軟件可靠性和迭代速度?

    經(jīng)緯恒潤全新推出的軟件在環(huán)(SIL)測試平臺INTEWORK-TVM(Test platform for Virtual Machine),用于滿足用戶對軟件功能提前測試的需求。該平臺采用了云
    的頭像 發(fā)表于 12-10 17:27 ?1847次閱讀
    高頻OTA時代,如何用SIL測試兼顧軟件可靠性和迭代速度?

    ExpeditionPCB管腳交換介紹

    mentor PCB設計器件管腳網(wǎng)絡交換介紹
    發(fā)表于 10-28 16:56 ?0次下載

    DDR200TDDR的使用與時序介紹

    SD卡和OV5640的數(shù)據(jù)搬運進DDR。 Setting Value Memory Type DDR3 SDRAM Max. clock period 3000ps Clock ratio 4
    發(fā)表于 10-28 07:24

    主控采用STM32H743,外擴一顆32MB的SDRAM,數(shù)據(jù)異常如何解決?

    裸機以及RTT初始化是可以正常讀寫的,但在線程,用了rt_thread_mdelay,SDRAM內(nèi)的數(shù)據(jù)會被清理,數(shù)據(jù)丟失,也無法讀寫了,調(diào)試發(fā)現(xiàn)是rt_schedule導致的,請問這個該問題如何解決?
    發(fā)表于 09-18 07:53

    rt_mb_send_wait,為什么要重新計算一次timeout?

    我最近閱讀源碼,發(fā)現(xiàn)rt_mb_send_wait,在調(diào)度結束后的代碼,又重新計算了一次timeout超時時間,看起來,如果還沒有達到超時時間,就繼續(xù)等待。 可我想不出,什么情況下會出現(xiàn)這種
    發(fā)表于 08-22 06:45

    芯片制造的阻擋層沉積技術介紹

    本文介紹了在芯片銅互連工藝需要阻擋層的原因以及關鍵工藝流程。
    的頭像 發(fā)表于 05-03 12:56 ?3390次閱讀
    芯片制造<b class='flag-5'>中</b>的阻擋層沉積技術<b class='flag-5'>介紹</b>

    芯片制造的抗反射涂層介紹

    本文介紹了用抗反射涂層來保證光刻精度的原理。
    的頭像 發(fā)表于 04-19 15:49 ?3049次閱讀
    芯片制造<b class='flag-5'>中</b>的抗反射涂層<b class='flag-5'>介紹</b>

    芯片制造的應變硅技術介紹

    本文介紹了在芯片制造的應變硅技術的原理、材料選擇和核心方法。
    的頭像 發(fā)表于 04-15 15:21 ?3172次閱讀
    芯片制造<b class='flag-5'>中</b>的應變硅技術<b class='flag-5'>介紹</b>

    芯片制造的二氧化硅介紹

    二氧化硅是芯片制造中最基礎且關鍵的絕緣材料。本文介紹其常見沉積方法與應用場景,解析SiO?在柵極氧化、側墻注入、STI隔離等核心工藝的重要作用。
    的頭像 發(fā)表于 04-10 14:36 ?5064次閱讀
    芯片制造<b class='flag-5'>中</b>的二氧化硅<b class='flag-5'>介紹</b>

    芯片制造的High-K材料介紹

    本文介紹了High-K材料的物理性質、制備方法及其應用。
    的頭像 發(fā)表于 04-08 15:59 ?3992次閱讀
    芯片制造<b class='flag-5'>中</b>的High-K材料<b class='flag-5'>介紹</b>

    集成電路制造的電鍍工藝介紹

    本文介紹了集成電路制造工藝的電鍍工藝的概念、應用和工藝流程。
    的頭像 發(fā)表于 03-13 14:48 ?2748次閱讀
    集成電路制造<b class='flag-5'>中</b>的電鍍工藝<b class='flag-5'>介紹</b>

    集成電路制造工藝的High-K材料介紹

    本文介紹了在集成電路制造工藝的High-K材料的特點、重要性、優(yōu)勢,以及工藝流程和面臨的挑戰(zhàn)。
    的頭像 發(fā)表于 03-12 17:00 ?2913次閱讀
    集成電路制造工藝<b class='flag-5'>中</b>的High-K材料<b class='flag-5'>介紹</b>

    集成電路制造的劃片工藝介紹

    本文概述了集成電路制造的劃片工藝,介紹了劃片工藝的種類、步驟和面臨的挑戰(zhàn)。
    的頭像 發(fā)表于 03-12 16:57 ?3319次閱讀
    集成電路制造<b class='flag-5'>中</b>的劃片工藝<b class='flag-5'>介紹</b>