91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

騰訊 AI Lab 開源世界首款自動化模型壓縮框架PocketFlow

羅欣 ? 來源:AI科技評論 ? 作者:佚名 ? 2018-09-18 11:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AI科技評論按:騰訊 AI Lab 機器學(xué)習(xí)中心今日宣布成功研發(fā)出世界上首款自動化深度學(xué)習(xí)模型壓縮框架—— PocketFlow,并即將在近期發(fā)布開源代碼。根據(jù)雷鋒網(wǎng)AI科技評論了解,這是一款面向移動端AI開發(fā)者的自動模型壓縮框架,集成了當(dāng)前主流的模型壓縮與訓(xùn)練算法,結(jié)合自研超參數(shù)優(yōu)化組件實現(xiàn)了全程自動化托管式的模型壓縮與加速。開發(fā)者無需了解具體算法細節(jié),即可快速地將AI技術(shù)部署到移動端產(chǎn)品上,實現(xiàn)用戶數(shù)據(jù)的本地高效處理。

隨著AI技術(shù)的飛速發(fā)展,越來越多的公司希望在自己的移動端產(chǎn)品中注入AI能力,但是主流的深度學(xué)習(xí)模型往往對計算資源要求較高,難以直接部署到消費級移動設(shè)備中。在這種情況下,眾多模型壓縮與加速算法應(yīng)運而生,能夠在較小的精度損失(甚至無損)下,有效提升 CNN 和 RNN 等網(wǎng)絡(luò)結(jié)構(gòu)的計算效率,從而使得深度學(xué)習(xí)模型在移動端的部署成為可能。但是,如何根據(jù)實際應(yīng)用場景,選擇合適的模型壓縮與加速算法以及相應(yīng)的超參數(shù)取值,往往需要較多的專業(yè)知識和實踐經(jīng)驗,這無疑提高了這項技術(shù)對于一般開發(fā)者的使用門檻。

在此背景下,騰訊AI Lab機器學(xué)習(xí)中心研發(fā)了 PocketFlow 開源框架,以實現(xiàn)自動化的深度學(xué)習(xí)模型壓縮與加速,助力AI技術(shù)在更多移動端產(chǎn)品中的廣泛應(yīng)用。通過集成多種深度學(xué)習(xí)模型壓縮算法,并創(chuàng)新性地引入超參數(shù)優(yōu)化組件,極大地提升了模型壓縮技術(shù)的自動化程度。開發(fā)者無需介入具體的模型壓縮算法及其超參數(shù)取值的選取,僅需指定設(shè)定期望的性能指標(biāo),即可通過 PocketFlow 得到符合需求的壓縮模型,并快速部署到移動端應(yīng)用中。

框架介紹

PocketFlow 框架主要由兩部分組件構(gòu)成,分別是模型壓縮/加速算法組件和超參數(shù)優(yōu)化組件,具體結(jié)構(gòu)如下圖所示。

開發(fā)者將未壓縮的原始模型作為 PocketFlow 框架的輸入,同時指定期望的性能指標(biāo),例如模型的壓縮和/或加速倍數(shù);在每一輪迭代過程中,超參數(shù)優(yōu)化組件選取一組超參數(shù)取值組合,之后模型壓縮/加速算法組件基于該超參數(shù)取值組合,對原始模型進行壓縮,得到一個壓縮后的候選模型;基于對候選模型進行性能評估的結(jié)果,超參數(shù)優(yōu)化組件調(diào)整自身的模型參數(shù),并選取一組新的超參數(shù)取值組合,以開始下一輪迭代過程;當(dāng)?shù)K止時,PocketFlow 選取最優(yōu)的超參數(shù)取值組合以及對應(yīng)的候選模型,作為最終輸出,返回給開發(fā)者用作移動端的模型部署。

具體地,PocketFlow 通過下列各個算法組件的有效結(jié)合,實現(xiàn)了精度損失更小、自動化程度更高的深度學(xué)習(xí)模型的壓縮與加速:

a) 通道剪枝(channel pruning)組件:在CNN網(wǎng)絡(luò)中,通過對特征圖中的通道維度進行剪枝,可以同時降低模型大小和計算復(fù)雜度,并且壓縮后的模型可以直接基于現(xiàn)有的深度學(xué)習(xí)框架進行部署。在CIFAR-10圖像分類任務(wù)中,通過對 ResNet-56 模型進行通道剪枝,可以實現(xiàn)2.5倍加速下分類精度損失0.4%,3.3倍加速下精度損失0.7%。

b) 權(quán)重稀疏化(weight sparsification)組件:通過對網(wǎng)絡(luò)權(quán)重引入稀疏性約束,可以大幅度降低網(wǎng)絡(luò)權(quán)重中的非零元素個數(shù);壓縮后模型的網(wǎng)絡(luò)權(quán)重可以以稀疏矩陣的形式進行存儲和傳輸,從而實現(xiàn)模型壓縮。對于 MobileNet 圖像分類模型,在刪去50%網(wǎng)絡(luò)權(quán)重后,在 ImageNet 數(shù)據(jù)集上的 Top-1 分類精度損失僅為0.6%。

c) 權(quán)重量化(weight quantization)組件:通過對網(wǎng)絡(luò)權(quán)重引入量化約束,可以降低用于表示每個網(wǎng)絡(luò)權(quán)重所需的比特數(shù);團隊同時提供了對于均勻和非均勻兩大類量化算法的支持,可以充分利用 ARMFPGA 等設(shè)備的硬件優(yōu)化,以提升移動端的計算效率,并為未來的神經(jīng)網(wǎng)絡(luò)芯片設(shè)計提供軟件支持。以用于 ImageNet 圖像分類任務(wù)的 ResNet-18 模型為例,在8比特定點量化下可以實現(xiàn)精度無損的4倍壓縮。

d) 網(wǎng)絡(luò)蒸餾(network distillation)組件:對于上述各種模型壓縮組件,通過將未壓縮的原始模型的輸出作為額外的監(jiān)督信息,指導(dǎo)壓縮后模型的訓(xùn)練,在壓縮/加速倍數(shù)不變的前提下均可以獲得0.5%-2.0%不等的精度提升。

e) 多GPU訓(xùn)練(multi-GPU training)組件:深度學(xué)習(xí)模型訓(xùn)練過程對計算資源要求較高,單個GPU難以在短時間內(nèi)完成模型訓(xùn)練,因此團隊提供了對于多機多卡分布式訓(xùn)練的全面支持,以加快使用者的開發(fā)流程。無論是基于 ImageNet 數(shù)據(jù)的Resnet-50圖像分類模型還是基于 WMT14 數(shù)據(jù)的 Transformer 機器翻譯模型,均可以在一個小時內(nèi)訓(xùn)練完畢。[1]

f) 超參數(shù)優(yōu)化(hyper-parameter optimization)組件:多數(shù)開發(fā)者對模型壓縮算法往往不甚了解,但超參數(shù)取值對最終結(jié)果往往有著巨大的影響,因此團隊引入了超參數(shù)優(yōu)化組件,采用了包括強化學(xué)習(xí)等算法以及 AI Lab 自研的 AutoML 自動超參數(shù)優(yōu)化框架來根據(jù)具體性能需求,確定最優(yōu)超參數(shù)取值組合。例如,對于通道剪枝算法,超參數(shù)優(yōu)化組件可以自動地根據(jù)原始模型中各層的冗余程度,對各層采用不同的剪枝比例,在保證滿足模型整體壓縮倍數(shù)的前提下,實現(xiàn)壓縮后模型識別精度的最大化。

性能展示

通過引入超參數(shù)優(yōu)化組件,不僅避免了高門檻、繁瑣的人工調(diào)參工作,同時也使得 PocketFlow 在各個壓縮算法上全面超過了人工調(diào)參的效果。以圖像分類任務(wù)為例,在 CIFAR-10 和 ImageNet 等數(shù)據(jù)集上, PocketFlow 對 ResNet 和 MobileNet 等多種 CNN 網(wǎng)絡(luò)結(jié)構(gòu)進行有效的模型壓縮與加速。[1]

在 CIFAR-10 數(shù)據(jù)集上,PocketFlow 以 ResNet-56 作為基準(zhǔn)模型進行通道剪枝,并加入了超參數(shù)優(yōu)化和網(wǎng)絡(luò)蒸餾等訓(xùn)練策略,實現(xiàn)了2.5倍加速下分類精度損失0.4%,3.3倍加速下精度損失0.7%,且顯著優(yōu)于未壓縮的ResNet-44模型; [2] 在 ImageNet 數(shù)據(jù)集上,PocketFlow 可以對原本已經(jīng)十分精簡的 MobileNet 模型繼續(xù)進行權(quán)重稀疏化,以更小的模型尺寸取得相似的分類精度;與 Inception-V1 、ResNet-18 等模型相比,模型大小僅為后者的約20~40%,但分類精度基本一致(甚至更高)。

相比于費時費力的人工調(diào)參,PocketFlow 框架中的 AutoML 自動超參數(shù)優(yōu)化組件僅需10余次迭代就能達到與人工調(diào)參類似的性能,在經(jīng)過100次迭代后搜索得到的超參數(shù)組合可以降低約0.6%的精度損失;通過使用超參數(shù)優(yōu)化組件自動地確定網(wǎng)絡(luò)中各層權(quán)重的量化比特數(shù),PocketFlow 在對用于 ImageNet 圖像分類任務(wù)的ResNet-18模型進行壓縮時,取得了一致性的性能提升;當(dāng)平均量化比特數(shù)為4比特時,超參數(shù)優(yōu)化組件的引入可以將分類精度從63.6%提升至68.1%(原始模型的分類精度為70.3%)。

深度學(xué)習(xí)模型的壓縮與加速是當(dāng)前學(xué)術(shù)界的研究熱點之一,同時在工業(yè)界中也有著廣泛的應(yīng)用前景。隨著PocketFlow的推出,開發(fā)者無需了解模型壓縮算法的具體細節(jié),也不用關(guān)心各個超參數(shù)的選擇與調(diào)優(yōu),即可基于這套自動化框架,快速得到可用于移動端部署的精簡模型,從而為AI能力在更多移動端產(chǎn)品中的應(yīng)用鋪平了道路。

參考文獻

[1] Zhuangwei Zhuang, Mingkui Tan, Bohan Zhuang, Jing Liu, Jiezhang Cao, Qingyao Wu, Junzhou Huang, Jinhui Zhu, “Discrimination-aware Channel Pruning for Deep Neural Networks", In Proc. of the 32nd Annual Conference on Neural Information Processing Systems, NIPS '18, Montreal, Canada, December 2018.

[2] Jiaxiang Wu, Weidong Huang, Junzhou Huang, Tong Zhang, “Error Compensated Quantized SGD and its Applications to Large-scale Distributed Optimization”, In Proc. of the 35th International Conference on Machine Learning, ICML ’18, Stockholm, Sweden, July 2018.

本文來源:AI科技評論

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39755

    瀏覽量

    301364
  • 騰訊
    +關(guān)注

    關(guān)注

    7

    文章

    1684

    瀏覽量

    50910
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    嵌入式軟件單元測試中AI自動化與人工檢查的協(xié)同機制研究:基于專業(yè)工具的實證分析

    ) 12,000 LOC 6.5周 ? 2.1% ? ? 96% ? ?關(guān)鍵發(fā)現(xiàn)?: AI自動化將測試周期壓縮60%,但?缺陷逃逸率翻倍?(組B vs A); 引入人工復(fù)核后,逃逸率下降
    發(fā)表于 12-31 11:22

    世界模型是讓自動駕駛汽車?yán)斫?b class='flag-5'>世界還是預(yù)測未來?

    ? [首發(fā)于智駕最前沿微信公眾號]世界模型自動駕駛技術(shù)中已有廣泛應(yīng)用。但當(dāng)談及它對自動駕駛的作用時,難免會出現(xiàn)分歧。它到底是讓自動駕駛汽車
    的頭像 發(fā)表于 12-16 09:27 ?866次閱讀
    <b class='flag-5'>世界</b><b class='flag-5'>模型</b>是讓<b class='flag-5'>自動</b>駕駛汽車?yán)斫?b class='flag-5'>世界</b>還是預(yù)測未來?

    如何利用NPU與模型壓縮技術(shù)優(yōu)化邊緣AI

    AI 模型體積龐大,部署在 NPU上常常面臨困難,這凸顯了模型壓縮技術(shù)的重要性。要實現(xiàn)高效的實時邊緣 AI,需要深入探討NPU 與
    的頭像 發(fā)表于 11-07 15:26 ?1257次閱讀
    如何利用NPU與<b class='flag-5'>模型</b><b class='flag-5'>壓縮</b>技術(shù)優(yōu)化邊緣<b class='flag-5'>AI</b>

    NVIDIA Isaac Lab多GPU多節(jié)點訓(xùn)練指南

    NVIDIA Isaac Lab 是一個適用于機器人學(xué)習(xí)的開源統(tǒng)一框架,基于 NVIDIA Isaac Sim 開發(fā),其模塊高保真仿真適用于各種訓(xùn)練環(huán)境,可提供各種物理
    的頭像 發(fā)表于 09-23 17:15 ?2404次閱讀
    NVIDIA Isaac <b class='flag-5'>Lab</b>多GPU多節(jié)點訓(xùn)練指南

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學(xué)應(yīng)用

    主要步驟: ①溯因②假說③實驗 1、科學(xué)推理的類型 ①演繹②歸納 2、自動化科學(xué)發(fā)現(xiàn)框架 AI-笛卡兒-----自動化科學(xué)發(fā)現(xiàn)框架,利用數(shù)
    發(fā)表于 09-17 11:45

    Arm率先適配騰訊混元開源模型,助力端側(cè)AI創(chuàng)新開發(fā)

    本周初,騰訊混元宣布開源小尺寸模型(參數(shù)分別為 0.5B、1.8B、4B、7B),可無縫運行于消費級顯卡上。作為全球應(yīng)用范圍最為廣泛的計算平臺,Arm 在
    的頭像 發(fā)表于 08-08 09:16 ?1384次閱讀
    Arm率先適配<b class='flag-5'>騰訊</b>混元<b class='flag-5'>開源</b><b class='flag-5'>模型</b>,助力端側(cè)<b class='flag-5'>AI</b>創(chuàng)新開發(fā)

    硬件與應(yīng)用同頻共振,英特爾Day 0適配騰訊開源混元大模型

    今日,騰訊正式發(fā)布新一代混元開源大語言模型。英特爾憑借在人工智能領(lǐng)域的全棧技術(shù)布局,現(xiàn)已在英特爾? 酷睿? Ultra 平臺上完成針對該模型的第零日(Day 0)部署與性能優(yōu)化。值得一
    的頭像 發(fā)表于 08-07 14:42 ?1365次閱讀
    硬件與應(yīng)用同頻共振,英特爾Day 0適配<b class='flag-5'>騰訊</b><b class='flag-5'>開源</b>混元大<b class='flag-5'>模型</b>

    自動化測試平臺ATECLOUD推出AI算法功能

    作為納米軟件自主研發(fā)的自動化測試平臺,ATECLOUD 始終致力于為用戶提供高效優(yōu)質(zhì)的測試解決方案。面對5G、AI等前沿技術(shù)的迭代發(fā)展,平臺深度融合新技術(shù)持續(xù)升級測試能力,最新推出的AI算法功能更在
    的頭像 發(fā)表于 07-22 16:10 ?806次閱讀
    <b class='flag-5'>自動化</b>測試平臺ATECLOUD推出<b class='flag-5'>AI</b>算法功能

    Nordic收購 Neuton.AI 關(guān)于產(chǎn)品技術(shù)的分析

    生成比傳統(tǒng)框架(如 TensorFlow、PyTorch 等)小 10 倍的模型,模型體積可低至個位數(shù) KB,并且推理速度更快、功耗更低。此次收購將 Neuton 的自動化 TinyM
    發(fā)表于 06-28 14:18

    APP自動化測試框架

    APP自動化測試框架是一套結(jié)合工具鏈、設(shè)計模式和技術(shù)規(guī)范的集成解決方案。以下是基于主流技術(shù)實踐的核心要點總結(jié): 一、核心模塊構(gòu)成 環(huán)境管理? 支持物理機/虛擬機/容器部署,集成ADB、Appium
    的頭像 發(fā)表于 05-07 07:35 ?665次閱讀
    APP<b class='flag-5'>自動化</b>測試<b class='flag-5'>框架</b>

    大象機器人攜手進迭時空推出 RISC-V 全棧開源六軸機械臂產(chǎn)品

    集成于同一硬件平臺。內(nèi)置RISC-V AI核,接入ONNXRuntime加速框架,可快速部署Transformer、CNN等主流算法,實現(xiàn)視覺跟蹤、語音交互與自主決策的一體應(yīng)用。 低門檻開發(fā) 提供
    發(fā)表于 04-25 17:59

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    Studio提供了最優(yōu)解。Neuron Studio可針對模型到應(yīng)用,提供一站式、全鏈路、自動化的開發(fā)協(xié)助,不僅讓AI應(yīng)用開發(fā)的全流程可視,更帶來整個多種工具的一站式開發(fā)能力,還支
    發(fā)表于 04-13 19:52

    智能舵機:AI融合下的自動化新紀(jì)元

    自動化的浪潮中,智能舵機以其獨特的魅力和卓越的性能,正引領(lǐng)著自動化產(chǎn)業(yè)邁向新的高度。今天,讓我們一起走進智能舵機的世界,感受AI技術(shù)為其帶來的無限可能。 一、智能舵機:自適應(yīng)控制的先
    的頭像 發(fā)表于 03-28 15:44 ?754次閱讀
    智能舵機:<b class='flag-5'>AI</b>融合下的<b class='flag-5'>自動化</b>新紀(jì)元

    銷售易在騰訊云城市峰會上發(fā)布中國首AI CRM

    各行各業(yè)的200余位來賓共同探討AI時代下客戶數(shù)字轉(zhuǎn)型的新路徑。 會上,銷售易發(fā)布 中國首AI CRM——NeoAgent?產(chǎn)品矩陣和Customer Data Cloud,Neo
    的頭像 發(fā)表于 03-24 11:16 ?689次閱讀

    自動化標(biāo)注技術(shù)推動AI數(shù)據(jù)訓(xùn)練革新

    標(biāo)貝自動化數(shù)據(jù)標(biāo)注平臺在全棧數(shù)據(jù)標(biāo)注場景式中搭載了大模型預(yù)標(biāo)注和自動化標(biāo)注能力,并應(yīng)用于3D點云、2D圖像、音頻、文本等數(shù)據(jù)場景的大規(guī)模、復(fù)雜任務(wù)和常規(guī)任務(wù)的標(biāo)注中。在保證高效處理的前提下,確保標(biāo)注
    的頭像 發(fā)表于 03-14 16:46 ?1357次閱讀