91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何優(yōu)化ML模型與硬件實(shí)現(xiàn)TinyML?Arm歸納出5種作法

jf_cVC5iyAO ? 來源:易心Microbit編程 ? 2023-01-07 09:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近幾年,因應(yīng)AI與ML應(yīng)用趨勢(shì)浪潮,越來越多企業(yè)開始嘗試將這樣的能力帶到靠近數(shù)據(jù)源的邊緣設(shè)備或IoT裝置,來發(fā)展各種Edge AI或AIoT應(yīng)用。例如結(jié)合語(yǔ)音指令來控制機(jī)器人作業(yè),或是透過AI邊緣攝影機(jī)來偵測(cè)機(jī)臺(tái)設(shè)備有無故障。但受限于CPU效能、數(shù)據(jù)吞吐量、內(nèi)存及數(shù)據(jù)儲(chǔ)存的影響,想要在資源有限的IoT或嵌入式裝置跑AI或ML推論模型,現(xiàn)在仍然不是一件容易的事。

近年來,一種微型機(jī)器學(xué)習(xí)新技術(shù)TinyML順勢(shì)而起,試圖從優(yōu)化硬件或模型來實(shí)現(xiàn)裝置上的AI或ML應(yīng)用,讓ML的推論功能能夠在資源有限的終端裝置上來實(shí)現(xiàn),可說是加速實(shí)現(xiàn)Edge AI或AIoT應(yīng)用的重要關(guān)鍵。

TinyML是什么?引用GoogleTensorflow 行動(dòng)部門負(fù)責(zé)人Pete Warden的定義,指的是每次執(zhí)行ML模型推論時(shí),其功耗必須小于1毫瓦(1mW)。

除了考慮到功耗,運(yùn)算力不足也是實(shí)現(xiàn)Edge AI或AIoT應(yīng)用的關(guān)鍵問題。以Inception v4深度學(xué)習(xí)模型為例,硬件能力需要的運(yùn)算量就有240個(gè)GOPS(每秒執(zhí)行10億次運(yùn)算) 但一般singleissue處理器,僅提供個(gè)位數(shù)的GOPS,甚至不只運(yùn)算能力,連在內(nèi)存中存取數(shù)據(jù)也會(huì)影響功耗,例如要從SRAM高速緩存來存取1TB的數(shù)據(jù),一顆16奈米CPU每秒所消耗的功耗就超過1瓦。這些都是TinyML的挑戰(zhàn)。

現(xiàn)階段TinyML技術(shù)發(fā)展,主要是從ML模型與硬件優(yōu)化來實(shí)現(xiàn)低功耗裝置上的ML應(yīng)用。歸納起來實(shí)現(xiàn)TinyML的5種常見ML模型架構(gòu)和優(yōu)化的方法,包括降低精度(Reduce Precision)、數(shù)據(jù)重復(fù)利用(Data re-use)、權(quán)重壓縮(Weight compression)、轉(zhuǎn)換(Transforms)、稀疏運(yùn)算(Sparse computation)。

第一種作法是轉(zhuǎn)換ML模型及權(quán)重的數(shù)據(jù)單元格式,來降低推論執(zhí)行所需的運(yùn)算量,例如將模型的權(quán)重從高精度FP32轉(zhuǎn)成較低精度的FP16或INT8格式。因ML模型需要很多乘加法運(yùn)算,而高精度ML模型又比低精度ML模型需要的運(yùn)算量更高,也因此,改用較低精度的ML模型來執(zhí)行運(yùn)算,能大幅降低功耗,甚至因運(yùn)算數(shù)據(jù)變少,也能因應(yīng)更高的吞吐量需求。這是第一個(gè)可以運(yùn)用到TinyML的方法。

除了從數(shù)據(jù)單元格式著手,減少數(shù)據(jù)重復(fù)使用是另一個(gè)可行方法。例如可以將CNN神經(jīng)網(wǎng)絡(luò)模型中經(jīng)常重復(fù)使用的權(quán)重參數(shù)的數(shù)值,暫時(shí)集中存放到一處,不用每次都從內(nèi)存來?yè)迫?shù)據(jù),減少不必要任務(wù)處理,也能達(dá)到降低功耗的作用。

由于現(xiàn)在神經(jīng)網(wǎng)絡(luò)模型體積越來越大,結(jié)構(gòu)越來越復(fù)雜,因推論執(zhí)行需處理的模型參數(shù)數(shù)量也就越多,大量使用內(nèi)存來存放這些龐大數(shù)據(jù),也造成了不少功耗的損失,也因此有了第3種作法是,透過權(quán)重壓縮技術(shù),對(duì)于存入內(nèi)存前的權(quán)重參數(shù)先進(jìn)行壓縮,需要時(shí)再解壓縮拿來使用,,這樣做好處是,一來可以減少內(nèi)存的用量,二來能獲得更高的帶寬和更低功耗。

第4種作法則是采用轉(zhuǎn)換矩陣運(yùn)算domain的方式,來降低乘法運(yùn)算的復(fù)雜度。一般AI或ML模型運(yùn)算過程有6成以上都是矩陣的乘法運(yùn)算,所以只要讓乘法運(yùn)算變少,就能減少運(yùn)算量,這是能夠降低運(yùn)算和功耗的另一種方式。例如將復(fù)雜的矩陣運(yùn)算domain轉(zhuǎn)換到較簡(jiǎn)易Winograd卷積算法的domain做運(yùn)算,就能降低乘法運(yùn)算的復(fù)雜度。

最后一種方法是稀疏運(yùn)算,像是運(yùn)用Relu的激勵(lì)函數(shù),在CNN模型運(yùn)算過程中,使其部分神經(jīng)元的輸出為零,可以讓神經(jīng)網(wǎng)絡(luò)變得稀疏,在運(yùn)算時(shí)只針對(duì)激勵(lì)函數(shù)輸入數(shù)值非零部分做運(yùn)算,不處理數(shù)值為零的部分,透過這樣的處理方式,同樣能達(dá)到運(yùn)算量與功耗降低的效果。

除了優(yōu)化ML模型和架構(gòu)外,現(xiàn)在硬件設(shè)計(jì)過程中,也有一些新作法,來因應(yīng)TinyML需求。常見3種TinyML硬件平臺(tái),前兩種是以低功耗和AI加速或優(yōu)化的硬件設(shè)計(jì)為主,包括有低功耗通用SoC、低功耗micro-NPU,可分別對(duì)應(yīng)到Arm Cortex-M55與Arm Ethos-U55系列IP產(chǎn)品。Arm Cortex-M55最大特色是支持最新的向量擴(kuò)充指令,與Cortex-M44相比,在語(yǔ)音模型處理性能表現(xiàn)高出8倍之多。Arm Ethos-U55是ARM推出的另一款神經(jīng)網(wǎng)絡(luò)處理器IP產(chǎn)品,不僅省電,在AI處理效能獲得百倍提升,甚至最新一款A(yù)rm Ethos-U6產(chǎn)品中,其運(yùn)算能力可達(dá)到1 TOPS。

其中第3種硬件平臺(tái)是采取內(nèi)存運(yùn)算的硬件架構(gòu)平臺(tái),如Mythic IPU處理器等,就是采用閃存內(nèi)運(yùn)算來執(zhí)行ML推論,足以支撐113M (百萬)權(quán)重?cái)?shù)量和每瓦4 TOPs運(yùn)算能力。

目前TinyML技術(shù)上遇到的挑戰(zhàn),越來越多AI與ML應(yīng)用,開始追求更高準(zhǔn)確度,需要使用資源越來越多,包括運(yùn)算、內(nèi)存、功耗等,「但TinyML卻又是要在有限資源下來實(shí)現(xiàn)或執(zhí)行不同的模型或神經(jīng)網(wǎng)絡(luò),這就是最大的Gap?!?/p>

舉例來說,想要提高神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確度,除了需要有大量的數(shù)據(jù)做訓(xùn)練,數(shù)據(jù)量越大需要做的矩陣運(yùn)算就更多,還有大量的參數(shù)需要調(diào)整,而且隨著架構(gòu)越復(fù)雜,需要做很多層神經(jīng)網(wǎng)絡(luò)計(jì)算,使用海量存儲(chǔ)器存取數(shù)據(jù)、參數(shù)和每一層計(jì)算結(jié)果。

盡管TinyML發(fā)展才剛起步,隨著AIoT或Edge AI應(yīng)用越來越火紅,未來將會(huì)有越來越多嵌入式裝置結(jié)合AI或ML功能,想要真正實(shí)現(xiàn)TinyML,這些裝置硬件必須具備每秒兆次(trillions)的乘加法運(yùn)算能力,而且這樣的運(yùn)算能力須考慮到硬件空間設(shè)計(jì),還有兼顧功耗才行。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    135

    文章

    9554

    瀏覽量

    392107
  • ML
    ML
    +關(guān)注

    關(guān)注

    0

    文章

    154

    瀏覽量

    35483
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8554

    瀏覽量

    136986
  • TinyML
    +關(guān)注

    關(guān)注

    0

    文章

    44

    瀏覽量

    1856

原文標(biāo)題:如何優(yōu)化ML模型與硬件實(shí)現(xiàn)TinyML?Arm歸納出5種作法

文章出處:【微信號(hào):易心Microbit編程,微信公眾號(hào):易心Microbit編程】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    寒武紀(jì)實(shí)現(xiàn)對(duì)GLM-5的Day 0適配

    的技術(shù)積累,寒武紀(jì)得以快速實(shí)現(xiàn)對(duì) GLM-5 的 Day 0 適配。? 寒武紀(jì)一直重視芯片和算法的聯(lián)合創(chuàng)新,致力于以軟硬件協(xié)同的方式,優(yōu)化模型
    的頭像 發(fā)表于 02-12 15:07 ?675次閱讀

    你相信光嗎?| Samtec助力AI/ML系統(tǒng)拓?fù)渲械墓膺B接

    前 言 ? ? ?? 當(dāng)前,在持續(xù)演進(jìn)的AI/ML硬件生態(tài)中,“新” 的元素?zé)o處不在:新的大語(yǔ)言模型(LLM)、新的加速器、新的系統(tǒng)拓?fù)洹⑿碌膬?nèi)存實(shí)現(xiàn)方式、新的供電方案…… 諸如此類,
    的頭像 發(fā)表于 11-13 15:03 ?1922次閱讀
    你相信光嗎?| Samtec助力AI/<b class='flag-5'>ML</b>系統(tǒng)拓?fù)渲械墓膺B接

    構(gòu)建CNN網(wǎng)絡(luò)模型優(yōu)化的一般化建議

    通過實(shí)踐,本文總結(jié)了構(gòu)建CNN網(wǎng)絡(luò)模型優(yōu)化的一般化建議,這些建議將會(huì)在構(gòu)建高準(zhǔn)確率輕量級(jí)CNN神經(jīng)網(wǎng)絡(luò)模型方面提供幫助。 1)避免單層神經(jīng)網(wǎng)絡(luò):我們清楚神經(jīng)網(wǎng)絡(luò)本身是需要不斷抽象
    發(fā)表于 10-28 08:02

    脈沖神經(jīng)元模型硬件實(shí)現(xiàn)

    實(shí)現(xiàn)。所以現(xiàn)有的大部分 SNN 加速器的硬件實(shí)現(xiàn)上都采用LIF模型。 如圖所示,設(shè)計(jì)的 SNN 神經(jīng)核整體架構(gòu)如圖所示。 神經(jīng)核主要由 LIF 神經(jīng)元模塊(LIF_neuron)、控
    發(fā)表于 10-24 08:27

    【技術(shù)討論】智能戒指手勢(shì)交互:如何優(yōu)化PCBA成本與實(shí)現(xiàn)<20ms低延遲?

    ,是否需在MCU上部署輕量級(jí)AI模型(如TinyML)進(jìn)行本地手勢(shì)識(shí)別,以替代傳統(tǒng)濾波算法,平衡實(shí)時(shí)性與準(zhǔn)確性 最終的核心目標(biāo)是在控制早期延遲的情況下,早期的PCBA成本(元器件+生產(chǎn))單個(gè)控制在100以內(nèi)。 誠(chéng)邀各位嵌入式開發(fā)與硬件
    發(fā)表于 10-18 13:04

    利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能

    才能做好。 現(xiàn)在,這些阻礙即將被解決。 Neuton 是一個(gè)自動(dòng)生成 ML 模型的框架,其大小僅為 TensorFlow Lite 等傳統(tǒng)框架的一小部分。對(duì)于開發(fā)人員來說,這意味著要訓(xùn)練一個(gè)高度優(yōu)化、快速和準(zhǔn)確
    發(fā)表于 08-31 20:54

    請(qǐng)問如何在keil μVision 5上進(jìn)行ARM編譯器的代碼優(yōu)化

    如何在keil μVision 5上進(jìn)行ARM編譯器的代碼優(yōu)化?
    發(fā)表于 08-20 07:37

    Arm神經(jīng)超級(jí)采樣 以ML進(jìn)一步強(qiáng)化性能 實(shí)現(xiàn)卓越的移動(dòng)端圖形性能

    受限的移動(dòng)設(shè)備上平衡這些目標(biāo)體驗(yàn),往往需要權(quán)衡取舍。傳統(tǒng)的優(yōu)化升級(jí)方法不夠靈活,而實(shí)時(shí)人工智能 (AI) 渲染則又依然存在復(fù)雜、耗電或依賴硬件性能等難題。 Arm 神經(jīng)超級(jí)采樣 (Arm
    的頭像 發(fā)表于 08-14 18:15 ?4864次閱讀
    <b class='flag-5'>Arm</b>神經(jīng)超級(jí)采樣 以<b class='flag-5'>ML</b>進(jìn)一步強(qiáng)化性能 <b class='flag-5'>實(shí)現(xiàn)</b>卓越的移動(dòng)端圖形性能

    一文了解Arm神經(jīng)超級(jí)采樣 (Arm Neural Super Sampling, Arm NSS) 深入探索架構(gòu)、訓(xùn)練和推理

    本文將從訓(xùn)練、網(wǎng)絡(luò)架構(gòu)到后處理和推理等方面,深入探討 Arm 神經(jīng)超級(jí)采樣 (Arm Neural Super Sampling, Arm NSS) 的工作原理,希望為機(jī)器學(xué)習(xí) (ML
    的頭像 發(fā)表于 08-14 16:11 ?3087次閱讀

    Arm KleidiAI與XNNPack集成實(shí)現(xiàn)AI性能提升

    INT4 矩陣乘法 (matmul) 優(yōu)化以增強(qiáng) Google Gemma 2 模型性能開始,到后續(xù)完成多項(xiàng)底層技術(shù)增強(qiáng),Arm 在 XNNPack 上實(shí)現(xiàn)了顯著的性能提升。
    的頭像 發(fā)表于 08-08 15:19 ?2830次閱讀
    <b class='flag-5'>Arm</b> KleidiAI與XNNPack集成<b class='flag-5'>實(shí)現(xiàn)</b>AI性能提升

    基于米爾瑞芯微RK3576開發(fā)板部署運(yùn)行TinyMaix:超輕量級(jí)推理框架

    內(nèi)存消耗 支持 INT8/FP32/FP16 模型,實(shí)驗(yàn)性地支持 FP8 模型,支持 keras h5 或 tflite 模型轉(zhuǎn)換 支持多種芯片架構(gòu)的專用指令
    發(fā)表于 07-25 16:35

    Nordic收購(gòu) Neuton.AI 關(guān)于產(chǎn)品技術(shù)的分析

    Nordic Semiconductor 于 2025 年收購(gòu)了 Neuton.AI,這是一家專注于超小型機(jī)器學(xué)習(xí)(TinyML)解決方案的公司。 Neuton 開發(fā)了一獨(dú)特的神經(jīng)網(wǎng)絡(luò)框架,能夠
    發(fā)表于 06-28 14:18

    STM32U5?(超低功耗MCU,支持TinyML)全面解析

    :在電機(jī)或設(shè)備中部署STM32U5,通過振動(dòng)傳感器數(shù)據(jù)訓(xùn)練TinyML模型,預(yù)測(cè)設(shè)備故障,避免停機(jī)損失。智能傳感器 :集成14位ADC與MDF,實(shí)現(xiàn)高精度信號(hào)采集(如工業(yè)流量計(jì)),結(jié)
    的頭像 發(fā)表于 04-08 17:38 ?3924次閱讀
    STM32U<b class='flag-5'>5</b>?(超低功耗MCU,支持<b class='flag-5'>TinyML</b>)全面解析

    Arm+AWS實(shí)現(xiàn)AI定義汽車 基于Arm KleidiAI優(yōu)化并由AWS提供支持

    文中介紹的車載生成式 AI 應(yīng)用演示由 Arm KleidiAI 進(jìn)行優(yōu)化并由 AWS 所提供的服務(wù)進(jìn)行支持,展示了新興技術(shù)如何幫助解決汽車行業(yè)的實(shí)際挑戰(zhàn)。該解決方案可實(shí)現(xiàn) 1 至 3 秒的響應(yīng)時(shí)間并將開發(fā)時(shí)間縮短數(shù)周,證明更高
    的頭像 發(fā)表于 04-03 19:24 ?1877次閱讀
    <b class='flag-5'>Arm</b>+AWS<b class='flag-5'>實(shí)現(xiàn)</b>AI定義汽車  基于<b class='flag-5'>Arm</b> KleidiAI<b class='flag-5'>優(yōu)化</b>并由AWS提供支持

    Raspberry Pi Pico 2 上實(shí)現(xiàn):實(shí)時(shí)機(jī)器學(xué)習(xí)(ML)音頻噪音抑制功能

    Arm公司的首席軟件工程師SandeepMistry為我們展示了一全新的巧妙方法:在RaspberryPiPico2上如何將音頻噪音抑制應(yīng)用于麥克風(fēng)輸入。機(jī)器學(xué)習(xí)(ML)技術(shù)徹底改變了許多軟件應(yīng)用
    的頭像 發(fā)表于 03-25 09:46 ?1230次閱讀
    Raspberry Pi Pico 2 上<b class='flag-5'>實(shí)現(xiàn)</b>:實(shí)時(shí)機(jī)器學(xué)習(xí)(<b class='flag-5'>ML</b>)音頻噪音抑制功能