91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google提出間接卷積算法,未來(lái)可會(huì)有突破?

WpOh_rgznai100 ? 來(lái)源:YXQ ? 2019-07-15 16:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文介紹的內(nèi)容主要聚焦Google 的一項(xiàng)最新工作:改變基于 GEMM 實(shí)現(xiàn)的 CNN底層算法提出的新方法。通用矩陣乘法(General Matrix Multiply, GEMM)是廣泛用于線性代數(shù)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等各個(gè)領(lǐng)域的常見底層算法,其實(shí)現(xiàn)了基本的矩陣與矩陣相乘的功能,因此算法效率直接決定了所有上層模型性能,目前主流的卷積算法都是基于GEMM來(lái)實(shí)現(xiàn)的。來(lái)自谷歌的Peter Vajda在ECV2019中提出了一種全新的間接卷積算法,用于改進(jìn)GEMM在實(shí)現(xiàn)卷積操作時(shí)存在的一些缺點(diǎn),進(jìn)而提升計(jì)算效率。

通用矩陣乘法

GEMM是基礎(chǔ)線性代數(shù)子程序庫(kù)(Basic Linear Algebra Subprograms, BLAS)中的一個(gè)函數(shù)。BLAS提供了實(shí)現(xiàn)矩陣和向量基本運(yùn)算的函數(shù),最早于1979年由C.L.LAWSON提出。BLAS的發(fā)展大致可以分為三個(gè)階段(levels)的歷程,這和函數(shù)定義,出版順序,以及算法中多項(xiàng)式的階數(shù)以及復(fù)雜性有關(guān),第一階段只包含與向量(vector)有關(guān)的運(yùn)算,第二階段添加了向量與矩陣進(jìn)行運(yùn)算的操作,第三階段添加了矩陣與矩陣之間的運(yùn)算,前兩個(gè)階段的BLAS都是用于向量處理器的,而第三階段適用于矩陣處理器,所以BLAS的發(fā)展和硬件的發(fā)展密不可分。GEMM屬于第三階段的算法,正式公布于1990年,其迭代更新形式為:

其中A和B可以進(jìn)行轉(zhuǎn)置或hermitian共軛轉(zhuǎn)置,而A、B和C都可以被忽略(be strided),因此實(shí)際上這個(gè)公式就表示了任意矩陣之間所有可能的加法和乘法組合,例如最基本的A*B,可以將α置1,C置為全0矩陣即可,這也是其通用性的表現(xiàn)。

由于矩陣乘法相對(duì)于向量-向量乘法以及向量-矩陣乘法,有更低的時(shí)間復(fù)雜度,效率更高,因此其廣泛用于許多科學(xué)任務(wù)中,與之相關(guān)的GEMM算法成為了目前BLAS設(shè)計(jì)者的主要優(yōu)化對(duì)象。例如可以將A和B分解為分塊矩陣,使得GEMM可以遞歸實(shí)現(xiàn)。有關(guān)GEMM的詳細(xì)信息可以參見[1][2][3]。如何對(duì)GEMM進(jìn)行優(yōu)化,是BLAS相關(guān)工作的研究熱點(diǎn)。

基于 GEMM 的卷積算法及其缺點(diǎn)

卷積神經(jīng)網(wǎng)絡(luò)(CNN)在CV問(wèn)題中的表現(xiàn)很出色,有多種在算法層面對(duì)齊進(jìn)行實(shí)現(xiàn)的方法:直接卷積算法,采用7層循環(huán),快速卷積算法,利用傅里葉變換來(lái)進(jìn)行卷積,以及基于GEMM的卷積算法。

通過(guò)將卷積操作用矩陣乘法來(lái)代替,進(jìn)而使用GEMM算法來(lái)間接進(jìn)行卷積操作,這使得卷積操作可以在任何包含GEMM的平臺(tái)上進(jìn)行,并且受益于矩陣乘法的高效性,任何針對(duì)GEMM的改進(jìn)和研究都能有助于卷積運(yùn)算效率的提升,從而提高模型的運(yùn)算速度,因此目前大部分主流的神經(jīng)網(wǎng)絡(luò)框架,例如Tensorflow、Pytorch和Caffe都使用基于GEMM的方法來(lái)在底層代碼中實(shí)現(xiàn)卷積。

具體的,基于GEMM的卷積方法需要借助于 im2col或im2row buffer來(lái)內(nèi)存轉(zhuǎn)換,使得數(shù)據(jù)格式滿足GEMM算法的輸入要求,從而將卷積操作轉(zhuǎn)化為GEMM操作,然而這個(gè)轉(zhuǎn)換過(guò)程是一個(gè)計(jì)算開銷和內(nèi)存開銷都比較大的過(guò)程,特別是在輸入channel數(shù)較小時(shí),這個(gè)過(guò)程會(huì)在整個(gè)卷積過(guò)程中占有很大的比例。簡(jiǎn)言之,就是在卷積過(guò)程中,每個(gè)pixel都會(huì)被多次重復(fù)的轉(zhuǎn)換,這是不必要的計(jì)算開銷。因此有許多工作都在對(duì)這一過(guò)程進(jìn)行改進(jìn),本文工作提出了一種改進(jìn)算法——間接卷積算法(Indirect Convolution algorithm),主要有以下兩個(gè)優(yōu)點(diǎn):

1、去掉了im2row的轉(zhuǎn)換過(guò)程,這使得算法性能有了巨大的提升(up to 62%)。

2、用了一個(gè)更小的indirection buffer來(lái)代替原來(lái)的im2row buffer。不同于im2row buffer的大小隨著輸入channel數(shù)線性增加,indirection buffer沒有這個(gè)特性,因此indirection buffer的內(nèi)存占用特性非常有利于輸入channel數(shù)較多時(shí)的卷積操作。

間接卷積算法

原始的GEMM通過(guò)如下計(jì)算來(lái)不斷迭代進(jìn)行矩陣運(yùn)算操作并輸出矩陣:

其中A是輸入張量,B是一個(gè)常量濾波器,C是輸出矩陣,在傳統(tǒng)的im2col+GEMM算法中,通常α=1而β=0,原始GEMM操作示意圖如下:

圖1 原始GEMM操作

其中 im2col buffer 代表矩陣A,filter tensor 代表矩陣B,A和B的乘積就是輸出copy表示將輸入的張量展開為一個(gè)二維矩陣,也就是im2col buffer??梢钥吹絙uffer的每一行則是由固定個(gè)數(shù)(步長(zhǎng))的pixel展開成一維的向量組成的,這些pixel都在原始tensor中的一個(gè)patch內(nèi),在經(jīng)過(guò)和filter tensor相乘后,由于矩陣行列相乘得到一個(gè)元素,因此這幾個(gè)pixel的信息都被整合成了一個(gè)值,也就是對(duì)他們進(jìn)行了卷積操作。最后在輸出矩陣C中,行數(shù)rows代表輸出的像素點(diǎn)個(gè)數(shù),columns代表輸出的channel數(shù)。可以看到buffer的columns是和輸入channel數(shù)有關(guān)的。

為了降低buffer帶來(lái)的開銷,作者提出了一種間接矩陣乘法的思想,不把輸入的tensor直接展開并存儲(chǔ)在buffer中,而只是在buffer中存放每個(gè)pixel在input tensor的坐標(biāo),也就是從存數(shù)據(jù)變成了存地址(類似于指針pointer思想),這樣不管channel數(shù)有多少,存的地址信息始終只有二維,極大的降低了buffer的計(jì)算和存儲(chǔ)開銷,如下圖:

圖2 indirect convolution

當(dāng)然,由于buffer中存的是地址信息,因此不能直接和filter做矩陣乘法,所以就只能通過(guò)在buffer的行間進(jìn)行循環(huán),根據(jù)該行的pointer找到對(duì)應(yīng)的輸入數(shù)據(jù),再將輸入數(shù)據(jù)與kernel相乘,并與之前循環(huán)的結(jié)果拼接起來(lái),從而間接的實(shí)現(xiàn)矩陣乘法,因此叫做indirection buffer。

對(duì)于不同的卷積步長(zhǎng),只需要將不同步長(zhǎng)對(duì)應(yīng)的卷積patch位置確定即可。而對(duì)于padding策略,將指向填充位置的pointer對(duì)應(yīng)的輸入pixel的向量值全部設(shè)置為0。

間接卷積算法的缺點(diǎn)

間接卷積算法作為GEMM-BASED CNN算法的一種改進(jìn),能極大的提升計(jì)算效率,但是存在以下幾個(gè)限制:

1. 這個(gè)算法是為NHWC layout設(shè)計(jì)的,也就是說(shuō)應(yīng)用范圍比較窄,不能和目前的主流方法相比。

2. 算法適用于前向傳播中的卷積操作,而在反向傳播中作用不大,不及基于col2im和row2im的算法。

3. 具有和GEMM相同的缺點(diǎn),在深度小卷積核的卷積操作中效率并不好。

實(shí)驗(yàn)測(cè)試結(jié)果

Efficient Deep Learning for Computer Vision主要聚焦于如何將深度學(xué)習(xí)部署到移動(dòng)設(shè)備上,因此本文的工作主要在移動(dòng)設(shè)備和移動(dòng)芯片上進(jìn)行測(cè)試,結(jié)果如下:

可以看到一旦步長(zhǎng)增加,那么Indirect convolution帶來(lái)的性能提升就會(huì)明顯下降,這是因?yàn)椴介L(zhǎng)越大,在原始的GEMM算法中重復(fù)計(jì)算的量就會(huì)減小,因此原始GEMM的性能本身就會(huì)提升,而indirect convolution并不受益于步長(zhǎng)增加。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Google
    +關(guān)注

    關(guān)注

    5

    文章

    1808

    瀏覽量

    60553
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4785

    瀏覽量

    98164

原文標(biāo)題:基于GEMM實(shí)現(xiàn)的CNN底層算法被改?Google提出全新間接卷積算法

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    SMT工藝革新:高精度貼裝與微型化組裝的未來(lái)趨勢(shì)

    突破 ±15 微米的技術(shù)壁壘。這一進(jìn)步不僅得益于視覺識(shí)別系統(tǒng)的升級(jí) —— 采用高分辨率相機(jī)和 AI 算法實(shí)現(xiàn)元件的精準(zhǔn)定位,還依賴于機(jī)械結(jié)構(gòu)的優(yōu)化,如直線電機(jī)驅(qū)動(dòng)和高精度滾珠絲杠的應(yīng)用。 微型化組裝
    發(fā)表于 03-06 14:55

    谷東智能亮相2025 Google APAC TV Summit峰會(huì)

    海外市場(chǎng)的 Google TV X AR 智能眼鏡一體化領(lǐng)先解決方案。此次峰會(huì)匯聚亞太地區(qū)智慧大屏商業(yè)生態(tài),云集該領(lǐng)域的頭部企業(yè),共同探索 AI+AR、XR、物聯(lián)網(wǎng)與智慧大屏場(chǎng)景的最新趨勢(shì),呈現(xiàn)未來(lái)智能終端設(shè)備的全新體驗(yàn)方向。
    的頭像 發(fā)表于 11-27 17:29 ?719次閱讀

    CNN卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)原理及在MCU200T上仿真測(cè)試

    CNN算法簡(jiǎn)介 我們硬件加速器的模型為L(zhǎng)enet-5的變型,網(wǎng)絡(luò)粗略分共有7層,細(xì)分共有13層。包括卷積,最大池化層,激活層,扁平層,全連接層。下面是各層作用介紹: 卷積層:提取特征?!安蝗?/div>
    發(fā)表于 10-29 07:49

    基于E203 RISC-V的音頻信號(hào)處理系統(tǒng) -ANC算法簡(jiǎn)介

    ANC算法介紹 主動(dòng)降噪系統(tǒng)在移動(dòng)終端中應(yīng)用最廣,例如摩托的麗音、三星Diamond Voice、蘋果的Micphone Array等。最早提出使用聲波干涉原理進(jìn)行噪聲消除概念的是Rayleigh
    發(fā)表于 10-28 07:50

    卷積運(yùn)算分析

    卷積運(yùn)算的基礎(chǔ)運(yùn)算是乘加運(yùn)算(MAC,Multiplication and Accumulation),本文設(shè)計(jì)了基本運(yùn)算單元PE模塊來(lái)實(shí)現(xiàn)MAC運(yùn)算。對(duì)于卷積運(yùn)算而言,一次性至少處理一個(gè)感受域規(guī)模
    發(fā)表于 10-28 07:31

    智能醫(yī)療器械的技術(shù)突破未來(lái)展望

    個(gè)性化醫(yī)療時(shí)代的到來(lái)。 技術(shù)突破:從“被動(dòng)工具”到“主動(dòng)決策” 傳統(tǒng)醫(yī)療器械依賴人工操作與解讀,而新一代智能設(shè)備通過(guò)多模態(tài)數(shù)據(jù)融合實(shí)現(xiàn)了自主分析。以影像診斷為例,搭載深度學(xué)習(xí)算法的CT設(shè)備可實(shí)時(shí)識(shí)別微米級(jí)病灶,準(zhǔn)確率較人
    的頭像 發(fā)表于 10-14 17:10 ?876次閱讀

    炬芯科技正式支持Google Find Hub

    9月19日,炬芯科技宣布正式支持 Google Find Hub。依托炬芯科技在低功耗無(wú)線技術(shù)領(lǐng)域的深厚積累與持續(xù)突破,助力各類 AloT 終端設(shè)備高效、穩(wěn)定地接入 Google 龐大的設(shè)備定位網(wǎng)絡(luò)
    的頭像 發(fā)表于 09-19 16:15 ?1251次閱讀

    谷歌查找我的設(shè)備配件(Google Find My Device Accessory)詳解和應(yīng)用

    谷歌查找我的設(shè)備配件(Google Find My Device Accessory)介紹 谷歌查找我的設(shè)備配件是與谷歌 “查找我的設(shè)備” 應(yīng)用程序配合使用的配件,旨在幫助用戶更方便地追蹤和定位個(gè)人
    發(fā)表于 08-31 21:10

    【書籍評(píng)測(cè)活動(dòng)NO.64】AI芯片,從過(guò)去走向未來(lái):《AI芯片:科技探索與AGI愿景》

    到AGI,一起來(lái)探索AI芯片 本書從創(chuàng)新視角出發(fā),系統(tǒng)梳理了AI芯片的前沿技術(shù)與未來(lái)方向,串聯(lián)起從算法到系統(tǒng)的實(shí)現(xiàn)路徑,全景式展現(xiàn)AI芯片的技術(shù)原理與應(yīng)用場(chǎng)景。 書中核心內(nèi)容可分為算法創(chuàng)新、工藝創(chuàng)新、材料
    發(fā)表于 07-28 13:54

    基于FPGA的SSD目標(biāo)檢測(cè)算法設(shè)計(jì)

    。有名的LeNet-5手寫數(shù)字識(shí)別網(wǎng)絡(luò),精度達(dá)到99%,AlexNet模型和VGG-16模型的提出突破了傳統(tǒng)圖像識(shí)別算法,GooLeNet和ResNet推動(dòng)了卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用。
    的頭像 發(fā)表于 07-10 11:12 ?2605次閱讀
    基于FPGA的SSD目標(biāo)檢測(cè)<b class='flag-5'>算法</b>設(shè)計(jì)

    CES Asia 2025蓄勢(shì)待發(fā),聚焦低空經(jīng)濟(jì)與AI,引領(lǐng)未來(lái)產(chǎn)業(yè)新變革

    。 低空經(jīng)濟(jì),作為新興的戰(zhàn)略性產(chǎn)業(yè),正處于蓬勃發(fā)展的黃金時(shí)期。隨著相關(guān)技術(shù)的不斷突破,低空經(jīng)濟(jì)的應(yīng)用場(chǎng)景得到了極大拓展。新型的載人飛行器不斷涌現(xiàn),其設(shè)計(jì)更加人性化、功能更加多元化,為未來(lái)的低空出行提供了更多
    發(fā)表于 07-09 10:29

    Google Fast Pair服務(wù)簡(jiǎn)介

    Google Fast Pair 是一項(xiàng)利用低功耗藍(lán)牙(Bluetooth LE)技術(shù),實(shí)現(xiàn)設(shè)備間快速安全配對(duì)及提供多種服務(wù)的協(xié)議。其主要功能包括: 設(shè)備處于配對(duì)模式時(shí),顯示半頁(yè)通知,便于用戶進(jìn)行
    發(fā)表于 06-29 19:28

    Google推出全新Cloud WAN解決方案

    超過(guò) 25 年來(lái),Google 一直在推動(dòng)網(wǎng)絡(luò)技術(shù)的邊界,其創(chuàng)新連接了全球數(shù)十億用戶使用 Gmail、YouTube 和 Search 等核心服務(wù)。這一切的基礎(chǔ)是 Google 龐大的骨干網(wǎng)絡(luò)。憑借
    的頭像 發(fā)表于 05-14 16:48 ?1473次閱讀

    認(rèn)識(shí) Thread 協(xié)議的互聯(lián)能力

    全球市場(chǎng)的重要通道之一。 作為基于 IP 的后發(fā)協(xié)議——Thread,以及 Matter over Thread 標(biāo)準(zhǔn),將逐漸承載萬(wàn)物互聯(lián)的未來(lái),為智能家居行業(yè)帶來(lái)更多互操作性和可靠性的變革。未來(lái) Thread 的產(chǎn)品生態(tài)將會(huì)繼續(xù)突破
    發(fā)表于 04-26 23:17

    Google發(fā)布最新AI模型Gemma 3

    Gemma 開放模型系列是 Google 推動(dòng)實(shí)用 AI 技術(shù)普惠大眾的重要基石。上個(gè)月,Gemma 迎來(lái)了首個(gè)生日?;赝^(guò)去一年,其成果斐然:全球下載量突破 1 億,社區(qū)欣欣向榮,衍生模型超過(guò) 6 萬(wàn)個(gè)1。Gemma 生態(tài)的蓬勃發(fā)展,不斷激發(fā)我們的創(chuàng)新熱情。
    的頭像 發(fā)表于 03-18 09:51 ?1758次閱讀