91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用于有效使用TinyML的隨機(jī)計(jì)算架構(gòu)

星星科技指導(dǎo)員 ? 來源:嵌入式計(jì)算設(shè)計(jì) ? 作者:Abhishek Jadhav ? 2022-07-11 09:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

神經(jīng)網(wǎng)絡(luò)是一種流行的機(jī)器學(xué)習(xí)模型,但它們需要更高的能耗和更復(fù)雜的硬件設(shè)計(jì)。隨機(jī)計(jì)算是平衡硬件效率和計(jì)算性能之間權(quán)衡的一種有效方式。然而,由于算術(shù)單元的低數(shù)據(jù)精度和不準(zhǔn)確性,隨機(jī)計(jì)算見證了 ML 工作負(fù)載的低準(zhǔn)確性。

為了解決與傳統(tǒng)隨機(jī)計(jì)算方法相關(guān)的問題,并通過更高的精度和更低的功耗來提高性能,正在進(jìn)行的研究提出了一種改進(jìn)的基于塊的隨機(jī)計(jì)算架構(gòu)。通過在輸入層中引入塊,可以通過利用高數(shù)據(jù)并行性來減少延遲。更重要的是確定全局優(yōu)化方法所需要的塊數(shù)。

現(xiàn)有的方法包括增加比特流的長度以提高數(shù)據(jù)精度,甚至使用指數(shù)比特來獲得準(zhǔn)確的結(jié)果。然而,這引入了較長的計(jì)算延遲,這對于 TinyML 應(yīng)用程序來說是不合理的。因此,為了應(yīng)對這種不斷上升的計(jì)算延遲,比特流被分成塊然后并行執(zhí)行。結(jié)合塊內(nèi)算術(shù)單元和輸出修正 (OUR) 方案可緩解塊間不準(zhǔn)確問題,從而提供高計(jì)算效率。

基于塊的隨機(jī)計(jì)算架構(gòu)

研究提供了一種新穎的架構(gòu),其中輸入被劃分為塊并使用優(yōu)化的塊內(nèi)算術(shù)單元并行執(zhí)行乘法和加法。此外,在 TinyML 應(yīng)用程序的延遲-功耗權(quán)衡方面,所提出的模型是一個(gè)出色的架構(gòu)。

架構(gòu)劃分如下:

塊劃分

如上圖所示,輸入比特流被劃分為“k”個(gè)值塊。所提出的想法是,為比特流選擇大量塊并不能保證是最佳的,但可以用于接近近似值。如果在選擇塊數(shù)時(shí)出現(xiàn)錯(cuò)誤,這可能會(huì)自相矛盾地導(dǎo)致大錯(cuò)誤。在確定來自輸入比特流的正和負(fù)部分的兩個(gè)平均值的概率方面存在復(fù)雜的計(jì)算。

塊內(nèi)計(jì)算

緩解了傳統(tǒng)加法器面臨的OR加法器相關(guān)問題和分離加法器溢出問題。新修改的架構(gòu)設(shè)計(jì)在輸入之間帶有 XNOR+AND 門,以消除雙極計(jì)算的相關(guān)性。

每個(gè)輸入位都在并行計(jì)數(shù)器 (PC) 中獲取,對于正負(fù)部分 (Ap, An) 分別進(jìn)行處理。有兩個(gè)專用累加器用于處理有符號(hào)位。取輸入位后,累加器之間發(fā)生減法,如正負(fù)部分所示。目標(biāo)是獲得所有輸入的累積 1 的數(shù)量。進(jìn)一步地,比較取時(shí)間輸出(Sop,Son)中的一位,在多個(gè)“n”個(gè)循環(huán)之后,計(jì)算符號(hào)位,并根據(jù)符號(hào)位Ap和An,選擇Sop和Son的輸出結(jié)果。

這種新的基于累加器的符號(hào)幅度格式加法器利用 unNSADD 加法器來比較輸出和輸入中的實(shí)際累加 1 以確定輸出位。這種方法消除了相關(guān)性和快速溢出問題的影響。

塊間??輸出修正方案

盡管塊內(nèi)加法器解決了相關(guān)性和溢出問題,但塊劃分引入了新的塊間不準(zhǔn)確錯(cuò)誤。乘法器不會(huì)發(fā)生這種情況,因?yàn)檩斎胧?XNORed 和 ANDed。但是對于加法器,輸出中 1 的數(shù)量可能會(huì)偏離所產(chǎn)生的不準(zhǔn)確性。輸出修訂方案在并行塊內(nèi)計(jì)算階段之后添加或刪除 1s,而不會(huì)引入任何額外的延遲來解決這些塊間不準(zhǔn)確錯(cuò)誤。

新穎的基于塊的隨機(jī)計(jì)算架構(gòu)旨在提高隨機(jī)計(jì)算運(yùn)算電路的精度,同時(shí)降低計(jì)算延遲和能源效率。根據(jù)研究結(jié)果,該方法比現(xiàn)有方法的準(zhǔn)確度提高了 10% 以上,并節(jié)省了 6 倍以上的功率。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何在LTspice仿真中實(shí)現(xiàn)偽隨機(jī)數(shù)和真隨機(jī)數(shù)的生成

    本文討論如何在LTspice仿真中利用flat()、gauss()和mc()函數(shù)來實(shí)現(xiàn)偽隨機(jī)數(shù)和真隨機(jī)數(shù)的生成,并介紹如何使用設(shè)置面板的Hacks部分中的 Use the clock
    的頭像 發(fā)表于 01-09 14:08 ?4708次閱讀
    如何在LTspice仿真中實(shí)現(xiàn)偽<b class='flag-5'>隨機(jī)</b>數(shù)和真<b class='flag-5'>隨機(jī)</b>數(shù)的生成

    深度解析?ARM?架構(gòu):從劍橋車庫到未來計(jì)算

    架構(gòu)的芯片。它早已不只是一個(gè)技術(shù)名詞,而是成了我們數(shù)字生活的一部分。 很多人對ARM的印象還停留在“省電”、“用在手機(jī)上”。但你知道嗎?它的技術(shù)觸角已經(jīng)伸向了超級(jí)計(jì)算機(jī)和數(shù)據(jù)中心。 今天,我們就來深度拆解一下ARM架構(gòu),聊聊它的
    的頭像 發(fā)表于 01-05 07:09 ?391次閱讀
    深度解析?ARM?<b class='flag-5'>架構(gòu)</b>:從劍橋車庫到未來<b class='flag-5'>計(jì)算</b>

    雙口SRAM靜態(tài)隨機(jī)存儲(chǔ)器存儲(chǔ)原理

    在各類存儲(chǔ)設(shè)備中,SRAM(靜態(tài)隨機(jī)存儲(chǔ)器)因其高速、低功耗和高可靠性,被廣泛應(yīng)用于高性能計(jì)算、通信和嵌入式系統(tǒng)中。其中,雙口SRAM靜態(tài)隨機(jī)存儲(chǔ)器憑借其獨(dú)特的雙端口設(shè)計(jì),在高帶寬和多
    的頭像 發(fā)表于 11-25 14:28 ?594次閱讀

    架構(gòu)計(jì)算機(jī)系統(tǒng)能力核心課程教學(xué)研討會(huì)圓滿舉行

    2025年11月8日,由教育部計(jì)算機(jī)類專業(yè)系統(tǒng)能力課程群虛擬教研室指導(dǎo)、北京航空航天大學(xué)計(jì)算機(jī)學(xué)院主辦的龍架構(gòu)計(jì)算機(jī)系統(tǒng)能力核心課程教學(xué)研討會(huì)在京舉行。
    的頭像 發(fā)表于 11-14 13:52 ?660次閱讀

    用于RISCV的F指令集實(shí)現(xiàn)的浮點(diǎn)計(jì)算單元(FPU)設(shè)計(jì)方案

    實(shí)現(xiàn)功能 為了完成F拓展,我們計(jì)劃在ALU內(nèi)添加一個(gè)專用于計(jì)算單精度浮點(diǎn)數(shù)的FPU單元。 2.1 實(shí)現(xiàn)riscv的F指令集拓展 即需要實(shí)現(xiàn)26條F指令: 以下部分指令返回地址是給整數(shù)寄存器,紅色
    發(fā)表于 10-24 07:43

    隨機(jī)數(shù)和偽隨機(jī)數(shù)的區(qū)別

    隨機(jī)數(shù)在當(dāng)前程序運(yùn)行環(huán)境中是一種常用參數(shù),目前主要分為兩種,偽隨機(jī)數(shù)和真隨機(jī)數(shù),本期我們就來講一下二者的區(qū)別。
    的頭像 發(fā)表于 08-27 17:46 ?2669次閱讀

    【PZ-ZU15EG-KFB】——ZYNQ UltraScale + 異構(gòu)架構(gòu)下的智能邊緣計(jì)算標(biāo)桿

    及747K邏輯單元FPGA,形成"通用計(jì)算+實(shí)時(shí)控制+定制加速"架構(gòu)。產(chǎn)品具備8GB DDR4/64GB eMMC存儲(chǔ)、8×16.3Gb/s高速接口,支持-40~85℃寬溫工作,適用于機(jī)器視覺、工業(yè)控制、醫(yī)療
    的頭像 發(fā)表于 07-22 09:47 ?1126次閱讀
    【PZ-ZU15EG-KFB】——ZYNQ UltraScale + 異構(gòu)<b class='flag-5'>架構(gòu)</b>下的智能邊緣<b class='flag-5'>計(jì)算</b>標(biāo)桿

    知合計(jì)算:RISC-V架構(gòu)創(chuàng)新,阿基米德系列劍指高性能計(jì)算

    在2025 RISC-V中國峰會(huì)上,知合計(jì)算處理器設(shè)計(jì)總監(jiān)劉暢就高性能RISC-V處理器架構(gòu)探索與實(shí)踐進(jìn)行了精彩分享。 在以X86和ARM為代表的處理器架構(gòu)之下,RISC-V在高性能計(jì)算
    的頭像 發(fā)表于 07-18 14:17 ?2773次閱讀
    知合<b class='flag-5'>計(jì)算</b>:RISC-V<b class='flag-5'>架構(gòu)</b>創(chuàng)新,阿基米德系列劍指高性能<b class='flag-5'>計(jì)算</b>

    異構(gòu)計(jì)算解決方案(兼容不同硬件架構(gòu)

    異構(gòu)計(jì)算解決方案通過整合不同類型處理器(如CPU、GPU、NPU、FPGA等),實(shí)現(xiàn)硬件資源的高效協(xié)同與兼容,滿足多樣化計(jì)算需求。其核心技術(shù)與實(shí)踐方案如下: 一、硬件架構(gòu)設(shè)計(jì) 異構(gòu)處理器組合? 主從
    的頭像 發(fā)表于 06-23 07:40 ?888次閱讀

    如何釋放異構(gòu)計(jì)算的潛能?Imagination與Baya Systems的系統(tǒng)架構(gòu)實(shí)踐啟示

    報(bào)告作者:PallaviSharma,Imaginaiton產(chǎn)品管理總監(jiān)Dr.EricNorige,BayaSystems首席軟件架構(gòu)師關(guān)注Imagination公眾號(hào),消息框發(fā)送【異構(gòu)計(jì)算】,即可
    的頭像 發(fā)表于 06-13 08:33 ?1189次閱讀
    如何釋放異構(gòu)<b class='flag-5'>計(jì)算</b>的潛能?Imagination與Baya Systems的系統(tǒng)<b class='flag-5'>架構(gòu)</b>實(shí)踐啟示

    GPU架構(gòu)深度解析

    GPU架構(gòu)深度解析從圖形處理到通用計(jì)算的進(jìn)化之路圖形處理單元(GPU),作為現(xiàn)代計(jì)算機(jī)中不可或缺的一部分,已經(jīng)從最初的圖形渲染專用處理器,發(fā)展成為強(qiáng)大的并行計(jì)算引擎,廣泛應(yīng)
    的頭像 發(fā)表于 05-30 10:36 ?1891次閱讀
    GPU<b class='flag-5'>架構(gòu)</b>深度解析

    能效提升3倍!異構(gòu)計(jì)算架構(gòu)讓AI跑得更快更省電

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)異構(gòu)計(jì)算架構(gòu)通過集成多種不同類型的處理單元(如CPU、GPU、NPU、FPGA、DSP等),針對不同計(jì)算任務(wù)的特點(diǎn)進(jìn)行分工協(xié)作,從而在性能、能效和靈活性之間實(shí)現(xiàn)最優(yōu)平衡
    的頭像 發(fā)表于 05-25 01:55 ?4056次閱讀

    Arm架構(gòu)何以成為現(xiàn)代計(jì)算的基礎(chǔ)

    2025 年 4 月,Arm 架構(gòu)迎來了問世 40 周年。這個(gè)始于英國劍橋一隅、懷揣雄心壯志的項(xiàng)目,如今已成為全球廣泛采用的計(jì)算架構(gòu)。從傳感器、智能手機(jī)、筆記本電腦,到汽車、數(shù)據(jù)中心等諸多領(lǐng)域,有數(shù)十億設(shè)備如今運(yùn)行在 Arm
    的頭像 發(fā)表于 05-20 10:02 ?1231次閱讀

    讓智能遍布人形機(jī)器人全身,這家國產(chǎn)MCU企業(yè)探索MCU+AI(TinyML

    大模型主要用于處理語義理解、復(fù)雜場景感知和長期任務(wù)規(guī)劃等高層智能任務(wù),能讓人形機(jī)器人在標(biāo)準(zhǔn)化場景中表現(xiàn)出色。但在對實(shí)時(shí)性要求極高的個(gè)性化場景里,AI 大模型卻無法滿足實(shí)時(shí)控制需求。因此,?MCU+AI(TinyML) 成為一種有效
    的頭像 發(fā)表于 04-14 00:44 ?2646次閱讀
    讓智能遍布人形機(jī)器人全身,這家國產(chǎn)MCU企業(yè)探索MCU+AI(<b class='flag-5'>TinyML</b>)

    STM32U5?(超低功耗MCU,支持TinyML)全面解析

    STM32U5是意法半導(dǎo)體(ST)推出的一款面向低功耗、高安全性與AIoT應(yīng)用的微控制器(MCU),其設(shè)計(jì)深度整合了超低功耗架構(gòu)TinyML(輕量化機(jī)器學(xué)習(xí))支持能力。以下從技術(shù)特性、TinyML
    的頭像 發(fā)表于 04-08 17:38 ?3986次閱讀
    STM32U5?(超低功耗MCU,支持<b class='flag-5'>TinyML</b>)全面解析