91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

高效打包邊緣人工智能神經(jīng)網(wǎng)絡(luò)模型

CEVA ? 來源:未知 ? 2023-11-09 10:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

嵌入式設(shè)計(jì)中常常需要將應(yīng)用程序打包到有限的片上內(nèi)存中,現(xiàn)在,將人工智能神經(jīng)網(wǎng)絡(luò)模型壓縮到有限的存儲(chǔ)器中也是如此。對于傳統(tǒng)軟件,就某些方面而言,做到這一點(diǎn)可謂更具挑戰(zhàn),因?yàn)榛谏窠?jīng)網(wǎng)絡(luò)的系統(tǒng)中的工作內(nèi)存都是“內(nèi)部循環(huán)”的,要求換出到DDR內(nèi)存,可能會(huì)降低性能。另外,在推理過程中重復(fù)訪問DDR也會(huì)增加邊緣設(shè)備的典型低功耗預(yù)算,這一點(diǎn)也同樣很難令人滿意。更大的片上存儲(chǔ)器是解決問題方法之一,但是會(huì)增加產(chǎn)品成本。綜上所述,最佳解決方案是盡可能高效地將模型打包到可用內(nèi)存中。

眾所周知,在編譯人工智能神經(jīng)網(wǎng)絡(luò)模型以便在邊緣設(shè)備上運(yùn)行時(shí),有一些量化技術(shù)可以縮小此模型的大小,如將浮點(diǎn)數(shù)據(jù)和權(quán)重值轉(zhuǎn)換為定點(diǎn),然后進(jìn)一步縮小為INT8或更小的值。想象一下,如果還能更進(jìn)一步會(huì)怎樣。在本文中,我將介紹幾種圖優(yōu)化技術(shù),助您在2MB的二級(jí)緩存中安裝更多量化模型,但僅僅量化是無法完成安裝的。

優(yōu)化人工智能神經(jīng)網(wǎng)絡(luò)圖中的緩沖區(qū)分配

wKgaomVMQdOAfJPPAACmlCKXd8g725.png

▲圖1.一個(gè)簡單的人工智能圖

(Op代表運(yùn)算符;E代表外部輸入;

C代表常數(shù)(權(quán)重);V代表變量;T代表張量)

人工智能神經(jīng)網(wǎng)絡(luò)模型表示為圖形并作為圖形來管理,其中的運(yùn)算是通過緩沖區(qū)相互連接的節(jié)點(diǎn)進(jìn)行的。這些緩沖區(qū)固定分配在內(nèi)存中,大小在編譯圖時(shí)確定,用于保存圖中的中間計(jì)算結(jié)果或輸入和輸出。在所有圖中,流水關(guān)系圖是最基本的一種,但更典型的簡單圖如圖1所示。

我們的目標(biāo)是讓編譯器優(yōu)化緩沖區(qū)內(nèi)存總需求。想想簡單的人工智能神經(jīng)網(wǎng)絡(luò)圖中可能的分配序列(圖2中的左圖)。首先要明白,圖中的不同運(yùn)算需要不同大小的緩沖區(qū),并且在進(jìn)行下一波處理之前,將不再需要已完成運(yùn)算的輸入緩沖區(qū)。讀取緩沖區(qū)A(此處分配有800K字節(jié)),就可以在后續(xù)運(yùn)算中重復(fù)使用了,緩沖區(qū)B也是如此,依此類推。在左圖出現(xiàn)分支時(shí),先將緩沖區(qū)A和B分配給了右側(cè)分支,之后則必須為左側(cè)分支分配一個(gè)新的緩沖區(qū)C。

wKgaomVMQdOAMcq5AABxXZ4kfzw357.jpg

▲圖2.說明緩沖區(qū)分配的簡單圖

(右圖在左圖的基礎(chǔ)上,將緩沖區(qū)B和C互換

并增加了緩沖區(qū)B的大小,得到了改善)

從這個(gè)例子中不難看出,一開始就將緩沖區(qū)B的大小增加到1000K,稍后再在左側(cè)分支中重復(fù)使用B的全部大小,右側(cè)分支中緩沖區(qū)C就只需要額外10K內(nèi)存,如右圖所示。左/右內(nèi)存需求差異明顯。左圖需要2.5MB (800K+700K+1000K),而修改順序后的右圖只需要 1.81MB(800K+1000K+10K)。

在一般人工智能神經(jīng)網(wǎng)絡(luò)圖中找出最優(yōu)排序就是眾所周知的0-1背包問題。我們展開了初步測試,研究這種優(yōu)化如何改善打包到固定大小L2緩存的效果。即使是當(dāng)下初步階段,結(jié)果也相當(dāng)不錯(cuò)。我們測試了幾種常見網(wǎng)絡(luò)在2MB和4MB L2緩存中的安裝效果。優(yōu)化前,只有13%的模型可以安裝在2MB內(nèi)存中,38%的模型可以安裝在4MB內(nèi)存中。優(yōu)化后,66%的模型可以安裝在2MB內(nèi)存中,83%的模型可以安裝在4MB內(nèi)存中。僅這一項(xiàng)優(yōu)化就值得我們努力,我們的目標(biāo)是確保更多模型可以完全在片上內(nèi)存中運(yùn)行。

通過合并緩沖區(qū)優(yōu)化人工智能神經(jīng)網(wǎng)絡(luò)模型

在卷積人工智能神經(jīng)網(wǎng)絡(luò)模型中,經(jīng)過前幾層處理后,緩沖區(qū)大小通常會(huì)縮小。這種結(jié)果表明,一開始分配的大緩沖區(qū)可以通過與稍后需要的較小緩沖區(qū)共享空間得到更高效的利用。圖3說明了這種可能性。

wKgaomVMQdSAckvDAABjXjMxhDI560.jpg

▲圖3.不同的簡單圖

(最初為緩沖區(qū)A分配的大小可以稍后由左右分支共享,

此處的C緩沖區(qū)源自最初的A緩沖區(qū))

我們試著進(jìn)行優(yōu)化,看看這種合并對內(nèi)存總需求有何影響。在一系列無比熟悉的網(wǎng)絡(luò)中,我們發(fā)現(xiàn)緩沖區(qū)總大小減小了15%到35%。再次重申一遍,這些改進(jìn)非常具有吸引力。

?

要點(diǎn)

?

我們通過這些優(yōu)化,運(yùn)行各種主流卷積人工智能神經(jīng)網(wǎng)絡(luò)模型,從檢測到分類到細(xì)分,再到RNN模型不一而足。大多數(shù)情況下,模型完全遷移至了4MB二級(jí)緩存,某些情況下,模型遷移至了二級(jí)緩存中,只有一部分還留在DDR內(nèi)存中。幾乎所有模型都在打包方面呈現(xiàn)出巨大改進(jìn)。

即使你的人工智能神經(jīng)網(wǎng)絡(luò)模型無法安裝在片上內(nèi)存,也并非無法優(yōu)化。在人工智能編譯器階段可以對緩沖區(qū)進(jìn)行優(yōu)化,大幅壓縮模型總大小。在CEVA,我們很樂意與你討論以上問題和其他想法,以便進(jìn)一步優(yōu)化人工智能神經(jīng)網(wǎng)絡(luò)模型的內(nèi)存使用。

識(shí)別右側(cè)二維碼

立即了解CEVA

更多信息

wKgaomVMQdSAUrT4AAFqtfxSXaM346.png ?

本文作者:Rami Drucker, Machine Learning SW Architect, CEVA


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • CEVA
    +關(guān)注

    關(guān)注

    1

    文章

    197

    瀏覽量

    77195

原文標(biāo)題:高效打包邊緣人工智能神經(jīng)網(wǎng)絡(luò)模型

文章出處:【微信號(hào):CEVA-IP,微信公眾號(hào):CEVA】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NMSIS神經(jīng)網(wǎng)絡(luò)庫使用介紹

    NMSIS NN 軟件庫是一組高效神經(jīng)網(wǎng)絡(luò)內(nèi)核,旨在最大限度地提高 Nuclei N 處理器內(nèi)核上的神經(jīng)網(wǎng)絡(luò)的性能并最??大限度地減少其內(nèi)存占用。 該庫分為多個(gè)功能,每個(gè)功能涵蓋特定類別
    發(fā)表于 10-29 06:08

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是訓(xùn)練一個(gè)手寫數(shù)字識(shí)別的神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 10-22 07:03

    人工智能工程師高頻面試題匯總:循環(huán)神經(jīng)網(wǎng)絡(luò)篇(題目+答案)

    后臺(tái)私信雯雯老師,備注:循環(huán)神經(jīng)網(wǎng)絡(luò),領(lǐng)取更多相關(guān)面試題隨著人工智能技術(shù)的突飛猛進(jìn),AI工程師成為了眾多求職者夢寐以求的職業(yè)。想要拿下這份工作,面試的時(shí)候得展示出你不僅技術(shù)過硬,還得能解決問題。所以
    的頭像 發(fā)表于 10-17 16:36 ?708次閱讀
    <b class='flag-5'>人工智能</b>工程師高頻面試題匯總:循環(huán)<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>篇(題目+答案)

    神經(jīng)網(wǎng)絡(luò)的并行計(jì)算與加速技術(shù)

    隨著人工智能技術(shù)的飛速發(fā)展,神經(jīng)網(wǎng)絡(luò)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和廣泛的應(yīng)用前景。然而,神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜度和規(guī)模也在不斷增加,這使得傳統(tǒng)的串行計(jì)算方式面臨著巨大的挑戰(zhàn),如計(jì)算速度慢、
    的頭像 發(fā)表于 09-17 13:31 ?1130次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的并行計(jì)算與加速技術(shù)

    利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能

    應(yīng)用。 為什么選擇 Neuton 作為開發(fā)人員,在產(chǎn)品中使用邊緣人工智能的兩個(gè)最大障礙是: ML 模型對于您所選微控制器的內(nèi)存來說太大。 創(chuàng)建自定義 ML 模型本質(zhì)上是一個(gè)手動(dòng)過程,需要高度的數(shù)據(jù)科學(xué)知識(shí)
    發(fā)表于 08-31 20:54

    基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真模型解決方案

    在基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真(DPD)模型中,使用不同的激活函數(shù)對整個(gè)系統(tǒng)性能和能效有何影響?
    的頭像 發(fā)表于 08-29 14:01 ?3473次閱讀

    AI 邊緣計(jì)算網(wǎng)關(guān):開啟智能新時(shí)代的鑰匙?—龍興物聯(lián)

    順暢地通向云端,實(shí)現(xiàn)設(shè)備與云端之間高效的數(shù)據(jù)傳輸與交互。通過融合先進(jìn)的邊緣計(jì)算和人工智能技術(shù),AI 邊緣計(jì)算網(wǎng)關(guān)能夠在靠近數(shù)據(jù)源的網(wǎng)絡(luò)
    發(fā)表于 08-09 16:40

    超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級(jí)芯片(SoC)上解鎖邊緣人工智能應(yīng)用.

    Neuton 是一家邊緣AI 公司,致力于讓機(jī)器 學(xué)習(xí)模型更易于使用。它創(chuàng)建的模型比競爭對手的框架小10 倍,速度也快10 倍,甚至可以在最先進(jìn)的邊緣設(shè)備上進(jìn)行
    發(fā)表于 07-31 11:38

    Nordic 收購 Neuton.AI # Neuton ML 模型解鎖 SoC 邊緣人工智能

    Nordic 業(yè)界領(lǐng)先的 nRF54L 系列超低功耗無線 SoC 與 Neuton 革命性的神經(jīng)網(wǎng)絡(luò)框架相結(jié)合,開啟邊緣機(jī)器學(xué)習(xí)的新紀(jì)元,即使是資源受限的設(shè)備也能擁有可擴(kuò)展的高性能人工智能 (AI
    的頭像 發(fā)表于 07-01 17:32 ?2650次閱讀
    Nordic 收購 Neuton.AI # Neuton ML <b class='flag-5'>模型</b>解鎖 SoC <b class='flag-5'>邊緣人工智能</b>

    Nordic收購 Neuton.AI 關(guān)于產(chǎn)品技術(shù)的分析

    示例和支持,方便開發(fā)者在 Nordic 的各類芯片上實(shí)現(xiàn)高效邊緣 AI 應(yīng)用; 如果對這個(gè)AI人工智能應(yīng)用感興趣,請?jiān)u論區(qū)聯(lián)系我們.
    發(fā)表于 06-28 14:18

    愛立信攜手超微加速邊緣人工智能部署

    愛立信與超微 Supermicro近日宣布有意開展戰(zhàn)略合作,加速邊緣人工智能部署。
    的頭像 發(fā)表于 06-17 09:42 ?1.6w次閱讀

    MAX78000采用超低功耗卷積神經(jīng)網(wǎng)絡(luò)加速度計(jì)的人工智能微控制器技術(shù)手冊

    人工智能(AI)需要超強(qiáng)的計(jì)算能力,而Maxim則大大降低了AI計(jì)算所需的功耗。MAX78000是一款新型的AI微控制器,使神經(jīng)網(wǎng)絡(luò)能夠在互聯(lián)網(wǎng)邊緣端以超低功耗運(yùn)行,將高能效的AI處理與經(jīng)過驗(yàn)證
    的頭像 發(fā)表于 05-08 11:42 ?987次閱讀
    MAX78000采用超低功耗卷積<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>加速度計(jì)的<b class='flag-5'>人工智能</b>微控制器技術(shù)手冊

    STM32N6570-DK:邊緣人工智能開發(fā)的全能探索板

    STM32N6570-DKDiscovery套件是一款專為邊緣人工智能開發(fā)設(shè)計(jì)的完整演示和開發(fā)平臺(tái),基于ArmCortex-M55內(nèi)核的STM32N657X0H3Q微控制器。該套件集成了豐富的硬件
    的頭像 發(fā)表于 05-06 16:00 ?1116次閱讀
    STM32N6570-DK:<b class='flag-5'>邊緣人工智能</b>開發(fā)的全能探索板

    開售RK3576 高性能人工智能主板

    ZYSJ-2476B 高性能智能主板,采用瑞芯微 RK3576 高性能 AI 處理器、神經(jīng)網(wǎng)絡(luò)處理器 NPU, Android 14.0/debian11/ubuntu20.04 操作系統(tǒng)
    發(fā)表于 04-23 10:55

    有獎(jiǎng)直播 | @4/1 智在邊緣:解鎖邊緣人工智能的無限可能

    如何賦能各行業(yè),加速數(shù)字化轉(zhuǎn)型,并探討其在實(shí)際應(yīng)用中可能面臨的挑戰(zhàn)及解決方案。 研討會(huì)亮點(diǎn): 1. 邊緣人工智能技術(shù)的市場現(xiàn)狀與發(fā)展趨勢? 2. 意法半導(dǎo)體的邊
    的頭像 發(fā)表于 03-25 16:32 ?588次閱讀
    有獎(jiǎng)直播 | @4/1 智在<b class='flag-5'>邊緣</b>:解鎖<b class='flag-5'>邊緣人工智能</b>的無限可能