91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

介紹網(wǎng)絡(luò)壓縮算法,知識蒸餾

YCqV_FPGA_EETre ? 來源:FPGA開發(fā)圈 ? 2019-11-29 11:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言

學(xué)過化學(xué)的都知道蒸餾這個概念,就是利用不同組分的沸點(diǎn)不同,將不同組分從混合液中分離出來。知識蒸餾用于網(wǎng)絡(luò)壓縮,也具有類似的性質(zhì)。具體的講,有一個大的神經(jīng)網(wǎng)絡(luò)充當(dāng)了“老師”的角色,她將書本上的知識先經(jīng)過自己的轉(zhuǎn)化和吸收,然后再傳授給“學(xué)生”網(wǎng)絡(luò)。學(xué)生網(wǎng)絡(luò)模型相對較小,但是經(jīng)過老師將知識提取教授,也可以實現(xiàn)大網(wǎng)絡(luò)的功能。

知識蒸餾的方法是大名鼎鼎的Hinton提出的,這種方法實現(xiàn)了大網(wǎng)絡(luò)向小網(wǎng)絡(luò)的知識遷移,使得應(yīng)用場景可以擴(kuò)展到移動端。接下來我們具體看看知識蒸餾的整個過程。

1

原理

表面上看,大網(wǎng)絡(luò)應(yīng)該有更好的表達(dá)能力,或者說泛化能力。而小網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)量和大網(wǎng)絡(luò)還有很大的差距,它如何能夠做到逼近大網(wǎng)絡(luò)的結(jié)果呢?首先,這與具體的應(yīng)用場景范圍有關(guān),在一定的場景下,小網(wǎng)絡(luò)可以接近大網(wǎng)絡(luò)的分類能力。這就好像對于某個更復(fù)雜的函數(shù),當(dāng)限定某個值域的時候,可以用一些簡單函數(shù)來逼近。其次,網(wǎng)絡(luò)分類器最終的結(jié)果是用概率來表示的,分類結(jié)果取決于概率最大的。因此最大概率是90%和最大概率是60%的最終分類結(jié)果是一樣的,這點(diǎn)就給了小網(wǎng)絡(luò)更靈活的表達(dá)方式。最后就是小網(wǎng)絡(luò)逼近大網(wǎng)絡(luò)的程度和大網(wǎng)絡(luò)的冗余程度有關(guān),這類似于對大網(wǎng)絡(luò)實行剪枝的結(jié)果。

那么如何訓(xùn)練一個小網(wǎng)絡(luò)呢?我們可以先考慮一下在數(shù)值分析中,用一個函數(shù)S(x)來逼近另外一個函數(shù)f(x),那么就可以通過最小化這兩個函數(shù)在每個點(diǎn)的平方和來實現(xiàn)。同理,訓(xùn)練小的網(wǎng)絡(luò)也必須使用大網(wǎng)絡(luò)的輸入和輸出作為訓(xùn)練集,而不能再使用訓(xùn)練大網(wǎng)絡(luò)的訓(xùn)練集了。原始訓(xùn)練集的標(biāo)注結(jié)果是絕對的(是和不是:1,0),而大網(wǎng)絡(luò)的輸出結(jié)果是一個概率向量,其包含了每一類的概率大小。這個結(jié)果不再僅僅只含有原始訓(xùn)練集的信息,它還包含了大網(wǎng)絡(luò)的信息。比如在原始圖片中,一張貓的圖片結(jié)果只有一個,但是經(jīng)過大網(wǎng)絡(luò)后,不僅僅有貓的結(jié)果,還有狗,房子,樹等每個類別的概率結(jié)果。其他類別的概率實際上告訴了我們不同類別之間存在的差異和共性,比如一張貓的圖片中是狗的概率可能就比是房子的概率大,因為貓和狗相對于貓和房子有更大的共性。

神經(jīng)網(wǎng)絡(luò)通常使用softmax函數(shù)來生成分類概率,這個函數(shù)形式為:

其中T是溫度,通常設(shè)置為1。使用較高的T可以產(chǎn)生更加softer的概率分布。更softer的概率分布提高網(wǎng)絡(luò)的泛化能力,有利于小網(wǎng)絡(luò)的訓(xùn)練。

寫到這里小編對softmax函數(shù)感到好奇,為什么神經(jīng)網(wǎng)絡(luò)都采用softmax來進(jìn)行概率計算呢?學(xué)過熱力學(xué)的會發(fā)現(xiàn),這個softmax函數(shù)非常類似不同能級上粒子分布概率,位于能級E的粒子分布概率就是正比于:

而且溫度越高高能級粒子概率也越大,這與softmax函數(shù)也有同樣的結(jié)果。其實觀察他們的推導(dǎo)過程就會發(fā)現(xiàn),它們之所以有相同的形式來自于它們都是多分類問題,而且概率模型都屬于廣義線性模型。Softmax函數(shù)正是在廣義線性函數(shù)的假設(shè)上推導(dǎo)出來的?,F(xiàn)在我們給出其傳統(tǒng)推導(dǎo),和基于熱力學(xué)統(tǒng)計的推導(dǎo)方法。

首先看什么是廣義線性模型,廣義線性模型是用于處理條件概率的一個基本模型,很多常見的分布模型(伯努利,高斯等)都屬于廣義線性模型。定義線性預(yù)測算子:

定義y基于x的條件概率分布,這個分布就是廣義線性模型:

分類問題就是求在給定輸入x的條件下,估計y值,即y屬于哪個類的問題。可以通過期望值來作為y的估計。容易得到這個期望值為:

因此一旦知道y的概率分布就知道了y的估計。這個估計就是回歸函數(shù)?,F(xiàn)在我們來看softmax的傳統(tǒng)推導(dǎo)。

Y有多個可能的分類:

每種分類對應(yīng)著概率:

定義:

其中有:

于是得到廣義分布:

其中有,

然后可以求出:

求得估計值:

這就是softmax函數(shù)。

現(xiàn)在我們從統(tǒng)計熱力學(xué)角度來推導(dǎo)softmax函數(shù)。

神經(jīng)網(wǎng)絡(luò)的作用是對輸入進(jìn)行特征提取,我們可以把這個提取過程表示為:

現(xiàn)在我們需要來理解E_i,這個應(yīng)該是表示從屬于特征i的程度,我們可以選擇一定函數(shù)f(E_i)來作為評價屬于特征i的程度。現(xiàn)在我們假設(shè)特征1到k是可以涵蓋所有輸入的,即任何輸入都是由這些特征構(gòu)成的,特征值反應(yīng)了輸入屬于某個特征的量,那么所有這些特征的量之和應(yīng)該是所有輸入量的和,那么我們可以有:

我們現(xiàn)在需要求y屬于這個特征的概率,即:

現(xiàn)在我們假設(shè)有N個數(shù),這些數(shù)要分配不同的y值。這些數(shù)被分配是完全隨機(jī)的,但是受到每種y值的數(shù)量限制,對應(yīng)E_i的數(shù)量為N_i。那么將這N個數(shù)分配給k個不同類的分配方式可以得到:

我們來最大化W,即求最大似然函數(shù):

滿足約束條件:

我們利用拉格朗日對偶原理來求解極值:

我們可以得到類似玻爾茲曼分布的公式:

其中u就是溫度1/T。

現(xiàn)在回到正題,過于softer的代價函數(shù)可能會造成分類結(jié)果錯誤率低,為了平衡分類錯誤和小模型泛化能力,hinton提出使用兩個代價函數(shù)來進(jìn)行訓(xùn)練,一個是T值較大,另外一個是T值為1。通過調(diào)節(jié)這兩個代價函數(shù)的比例來獲得滿意的訓(xùn)練結(jié)果。

2

實驗結(jié)果

Hinton的論文中分別在MINIST,語音識別上進(jìn)行了實驗。我們僅僅看一下實驗結(jié)果,對知識蒸餾效果有個簡單印象。更深入的理解離不開實踐,只有真正去寫代碼去看結(jié)果,才能不會紙上談兵。

1) MINIST

大網(wǎng)絡(luò)含有2個隱含層,1200個激活單元,60000個訓(xùn)練集圖片。作者通過剪枝來將大網(wǎng)絡(luò)減小到只有800個激活單元,將溫度增加到20,相比于沒有regularization會減小很大錯誤率。

2) 語音識別

這里作者使用多個小網(wǎng)絡(luò)集合來作為教師網(wǎng)絡(luò),然后單個網(wǎng)絡(luò)作為學(xué)生網(wǎng)絡(luò)。每個網(wǎng)絡(luò)為8個隱含層,2560個激活單元,訓(xùn)練集有14000個標(biāo)注數(shù)據(jù)。結(jié)果如下:

其中WER為錯誤率。

總結(jié)

本文介紹了網(wǎng)絡(luò)壓縮算法,知識蒸餾。很多是小編個人理解,如有不同意見歡迎指正交流。更多可以參考hinton大神的知識蒸餾文獻(xiàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4786

    瀏覽量

    98260
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4419

    瀏覽量

    67678
  • 網(wǎng)絡(luò)節(jié)點(diǎn)

    關(guān)注

    0

    文章

    54

    瀏覽量

    17131

原文標(biāo)題:【網(wǎng)絡(luò)壓縮三】知識蒸餾

文章出處:【微信號:FPGA-EETrend,微信公眾號:FPGA開發(fā)圈】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    面向嵌入式部署的神經(jīng)網(wǎng)絡(luò)優(yōu)化:模型壓縮深度解析

    1.為什么需要神經(jīng)網(wǎng)絡(luò)模型壓縮? 神經(jīng)網(wǎng)絡(luò)已經(jīng)成為解決復(fù)雜機(jī)器學(xué)習(xí)問題的強(qiáng)大工具。然而,這種能力往往伴隨著模型規(guī)模和計算復(fù)雜度的增加。當(dāng)輸入維度較大(例如長時序窗口、高分辨率特征空間)時,模型需要
    的頭像 發(fā)表于 02-24 15:37 ?5173次閱讀
    面向嵌入式部署的神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>優(yōu)化:模型<b class='flag-5'>壓縮</b>深度解析

    MinGW-w64工具集壓縮包的下載

    MinGW-w64工具集壓縮包的下載 這是MinGW-w64工具集壓縮包的下載進(jìn)度界面,文件名為x86_64-13.2.0-release-posix-seh-ucrt-rt_v11-rev0.7z
    發(fā)表于 02-07 04:59

    linux的壓縮和解壓操作

    1、 壓縮/解壓操作 在開發(fā)中,很多時候會遇到某些文件要進(jìn)行壓縮的操作,比如文件較大不方便傳輸?shù)臅r候,可能會考慮對文件進(jìn)行壓縮,以減少文件傳輸?shù)臅r間。 比如在網(wǎng)絡(luò)中傳輸文件的時候,就會
    發(fā)表于 12-23 06:56

    Vlan、三層交換機(jī)、網(wǎng)關(guān)、DNS、子網(wǎng)掩碼、MAC地址等網(wǎng)絡(luò)知識

    我們現(xiàn)在做的弱電工程,經(jīng)常用到網(wǎng)絡(luò)知識,比如vlan、三層交換機(jī)、網(wǎng)關(guān)、DNS、子網(wǎng)掩碼、MAC地址等方面的知識,作為從業(yè)人員,我們對這些知識了解并熟知的。 正文: 一、什么是VLAN
    的頭像 發(fā)表于 12-18 10:16 ?431次閱讀
    Vlan、三層交換機(jī)、網(wǎng)關(guān)、DNS、子網(wǎng)掩碼、MAC地址等<b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>知識</b>

    電能質(zhì)量在線監(jiān)測裝置數(shù)據(jù)壓縮對裝置性能有哪些影響?

    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮功能對性能的影響 總體可控且輕微 ,核心集中在「CPU 占用、內(nèi)存消耗、存儲讀寫速度、數(shù)據(jù)傳輸延遲」四大維度,且通過廠商優(yōu)化(硬件加速、算法選型、資源調(diào)度)可將負(fù)面影響
    的頭像 發(fā)表于 12-17 10:28 ?398次閱讀
    電能質(zhì)量在線監(jiān)測裝置數(shù)據(jù)<b class='flag-5'>壓縮</b>對裝置性能有哪些影響?

    電能質(zhì)量在線監(jiān)測裝置支持哪些數(shù)據(jù)壓縮算法?

    電能質(zhì)量在線監(jiān)測裝置支持 無損壓縮 和 有損壓縮 兩大類算法,適配不同數(shù)據(jù)類型(實時數(shù)據(jù)、歷史數(shù)據(jù)、波形數(shù)據(jù))與應(yīng)用場景(存儲 / 傳輸 / 故障追溯),且在基礎(chǔ)型、增強(qiáng)型、電網(wǎng)級裝置中支持力度逐步
    的頭像 發(fā)表于 12-12 14:08 ?550次閱讀
    電能質(zhì)量在線監(jiān)測裝置支持哪些數(shù)據(jù)<b class='flag-5'>壓縮</b><b class='flag-5'>算法</b>?

    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮存儲功能對數(shù)據(jù)傳輸速度有影響嗎?

    ); 次要負(fù)面影響: 壓縮 / 解壓過程會消耗少量時間 (硬件加速可忽略,軟件壓縮有輕微延遲);最終凈效果取決于 壓縮比、算法效率、硬件是否支持加速 ,實際應(yīng)用中絕大多數(shù)場景(如 4G
    的頭像 發(fā)表于 12-11 16:43 ?1287次閱讀
    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)<b class='flag-5'>壓縮</b>存儲功能對數(shù)據(jù)傳輸速度有影響嗎?

    應(yīng)用于暫態(tài)波形存儲的數(shù)據(jù)壓縮算法需要考慮哪些因素?

    應(yīng)用于暫態(tài)波形存儲的數(shù)據(jù)壓縮算法,需圍繞 暫態(tài)波形特性 (突變性、關(guān)鍵特征依賴性)、 工業(yè)場景需求 (實時性、硬件限制)及 數(shù)據(jù)應(yīng)用價值 (故障溯源、合規(guī)性)綜合考量,核心需關(guān)注以下六大維度: 一
    的頭像 發(fā)表于 11-05 15:02 ?361次閱讀

    AES加解密算法邏輯實現(xiàn)及其在蜂鳥E203SoC上的應(yīng)用介紹

    這次分享我們會簡要介紹AES加解密算法的邏輯實現(xiàn),以及如何將AES算法做成硬件協(xié)處理器集成在蜂鳥E203 SoC上。 AES算法介紹 AE
    發(fā)表于 10-29 07:29

    國密系列算法簡介及SM4算法原理介紹

    算法可用于無線局域網(wǎng)產(chǎn)品;SM7算法可用于身份識別、票務(wù)、支付與通卡類業(yè)務(wù)。ZUC算法可用于移動通信網(wǎng)絡(luò)。 密碼雜湊算法:SM3
    發(fā)表于 10-24 08:25

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的未來:提升算力還是智力

    新信息的情況下持續(xù)學(xué)習(xí)和改進(jìn)的AI計算方式。 終身短發(fā)怎么保持已有知識和技能的有效性呢 ①知識蒸餾:將已有知識從一個模型轉(zhuǎn)移到另一個模型 ②知識
    發(fā)表于 09-14 14:04

    低內(nèi)存場景下的高效壓縮利器:FastLZ壓縮庫應(yīng)用實踐指南

    在資源受限環(huán)境中,數(shù)據(jù)壓縮既要追求速度又要節(jié)省內(nèi)存。本文聚焦FastLZ壓縮庫,深入探討其在低內(nèi)存場景下的應(yīng)用實踐,通過解析其核心算法與優(yōu)化策略,帶您掌握如何利用該庫實現(xiàn)快速壓縮,滿足
    的頭像 發(fā)表于 07-22 15:13 ?431次閱讀
    低內(nèi)存場景下的高效<b class='flag-5'>壓縮</b>利器:FastLZ<b class='flag-5'>壓縮</b>庫應(yīng)用實踐指南

    基于FPGA的壓縮算法加速實現(xiàn)

    本設(shè)計中,計劃實現(xiàn)對文件的壓縮及解壓,同時優(yōu)化壓縮中所涉及的信號處理和計算密集型功能,實現(xiàn)對其的加速處理。本設(shè)計的最終目標(biāo)是證明在充分并行化的硬件體系結(jié)構(gòu) FPGA 上實現(xiàn)該算法時,可以大大提高該
    的頭像 發(fā)表于 07-10 11:09 ?2458次閱讀
    基于FPGA的<b class='flag-5'>壓縮</b><b class='flag-5'>算法</b>加速實現(xiàn)

    ModbusRTU轉(zhuǎn)EtherCAT網(wǎng)關(guān):蒸餾裝置通信提速方案

    蒸餾裝置等復(fù)雜控制系統(tǒng)中,如何有效地通過開疆智能Modbus RTU轉(zhuǎn)EtherCAT網(wǎng)關(guān)KJ-ECT-101將這兩種協(xié)議結(jié)合使用,以實現(xiàn)更高效、更可靠的系統(tǒng)性能,成為了工程師們關(guān)注的焦點(diǎn)。常壓蒸餾
    的頭像 發(fā)表于 06-26 18:29 ?406次閱讀

    成本狂降90%!國產(chǎn)芯片+開源模型如何改寫AI玩具規(guī)則

    電子發(fā)燒友網(wǎng)綜合報道,在AI技術(shù)持續(xù)突破的當(dāng)下,AI玩具正在經(jīng)歷一場靜默的變革,而變革的核心,在于輕量級大模型的技術(shù)突破,即通過算法壓縮與硬件協(xié)同,AI玩具得以在方寸之間承載復(fù)雜的智能交互,以更低
    的頭像 發(fā)表于 05-29 00:52 ?3934次閱讀