91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

YOLO的另一選擇,手機(jī)端97FPS的Anchor-Free目標(biāo)檢測(cè)模型NanoDet

電子設(shè)計(jì) ? 來(lái)源:電子設(shè)計(jì) ? 作者:電子設(shè)計(jì) ? 2020-12-08 22:42 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

文章轉(zhuǎn)載于:知乎
作者:RangiLyu

上來(lái)先貼一下性能對(duì)比:

華為P30上用NCNN移植跑benchmark,每幀僅需10.23毫秒,比yolov4-tiny快3倍,參數(shù)量小6倍,COCO mAP(0.5:0.95)能夠達(dá)到20.6 。而且模型權(quán)重文件只有1.8mb,對(duì)比動(dòng)輒數(shù)十兆的模型,可以說(shuō)是相當(dāng)友好了~

Android Demo

項(xiàng)目地址(提供訓(xùn)練代碼到安卓部署一站式解決方案):

RangiLyu/nanodet: ?Super fast and lightweight anchor-free object detection model. Only 1.8mb and run 97FPS on cellphone (github.com)?github.com

前言

深度學(xué)習(xí)目標(biāo)檢測(cè)已經(jīng)發(fā)展了許多年,從Two-stage到One-stage,從Anchor-base到Anchor-free,再到今年的用Transformer做目標(biāo)檢測(cè),各種方法百花齊放,但是在移動(dòng)端目標(biāo)檢測(cè)算法上,yolo系列和SSD等Anchor-base的模型一直占據(jù)著主導(dǎo)地位。這個(gè)項(xiàng)目的主要目的是希望能夠開(kāi)源一個(gè)移動(dòng)端實(shí)時(shí)的Anchor-free檢測(cè)模型,能夠提供不亞于yolo系列的性能,而且同樣方便訓(xùn)練和移植。
其實(shí)從去年大量anchor-free的論文發(fā)表之后,我就一直想把a(bǔ)nchor free的模型移植到移動(dòng)端或者是嵌入式設(shè)備上。當(dāng)時(shí)嘗試過(guò)把FCOS輕量化的實(shí)驗(yàn),奈何效果并不如mobilenet+yolov3,也就暫時(shí)擱置了。分析下來(lái),主要還是因?yàn)镕COS的centerness分支在輕量級(jí)的模型上很難收斂,之后發(fā)表的一些在FCOS上面進(jìn)行改進(jìn)的論文也都沒(méi)有解決這一問(wèn)題。

直到今年年中的時(shí)候刷arxiv突然刷到了

@李翔

老師的論文Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection,論文中提出的GFocalLoss完美去掉了FCOS系列的Centerness分支,而且在coco數(shù)據(jù)集上漲點(diǎn)顯著,這么好的文章怎么能不點(diǎn)贊呢?GFL的出現(xiàn)不僅去掉了難以訓(xùn)練的Centerness,而且還省去了這一分支上的大量卷積,減少了檢測(cè)頭的計(jì)算開(kāi)銷(xiāo),非常適合移動(dòng)端的輕量化部署。
貼一下李翔老師關(guān)于GFocal Loss的解讀:

李翔:大白話(huà) Generalized Focal Loss?zhuanlan.zhihu.com

檢測(cè)頭輕量化

在找到了合適的損失函數(shù)之后,接下來(lái)的關(guān)鍵就是如何使其在輕量化模型上發(fā)揮作用了。首先需要對(duì)移動(dòng)端進(jìn)行優(yōu)化的就是檢測(cè)頭:FCOS系列使用了共享權(quán)重的檢測(cè)頭,即對(duì)FPN出來(lái)的多尺度Feature Map使用同一組卷積預(yù)測(cè)檢測(cè)框,然后每一層使用一個(gè)可學(xué)習(xí)的Scale值作為系數(shù),對(duì)預(yù)測(cè)出來(lái)的框進(jìn)行縮放。

FCOS模型架構(gòu)

這么做的好處是能夠?qū)z測(cè)頭的參數(shù)量降低為不共享權(quán)重狀態(tài)下的1/5。這對(duì)于光是檢測(cè)頭就擁有數(shù)百通道的卷積的大模型來(lái)說(shuō)非常有用,但是對(duì)于輕量化模型來(lái)說(shuō),共享權(quán)重檢測(cè)頭并沒(méi)有很大的意義。由于移動(dòng)端模型推理由CPU進(jìn)行計(jì)算,共享權(quán)重并不會(huì)對(duì)推理過(guò)程進(jìn)行加速,而且在檢測(cè)頭非常輕量的情況下,共享權(quán)重使得其檢測(cè)能力進(jìn)一步下降,因此還是選擇每一層特征使用一組卷積比較合適。
同時(shí),F(xiàn)COS系列在檢測(cè)頭上使用了Group Normalization作為歸一化的方式,GN對(duì)比BN有很多好處,但是卻有一個(gè)缺點(diǎn):BN在推理時(shí)能夠?qū)⑵錃w一化的參數(shù)直接融合進(jìn)卷積中,可以省去這一步計(jì)算,而GN則不行。為了能夠節(jié)省下歸一化操作的時(shí)間,我選擇將GN替換為BN。
FCOS的檢測(cè)頭使用了4個(gè)256通道的卷積作為一個(gè)分支,也就是說(shuō)在邊框回歸和分類(lèi)兩個(gè)分支上一共有8個(gè)c=256的卷積,計(jì)算量非常大。為了將其輕量化,我首先選擇使用深度可分離卷積替換普通卷積,并且將卷積堆疊的數(shù)量從4個(gè)減少為2組。在通道數(shù)上,將256維壓縮至96維,之所以選擇96,是因?yàn)樾枰獙⑼ǖ罃?shù)保持為8或16的倍數(shù),這樣能夠享受到大部分推理框架的并行加速。最后,借鑒了yolo系列的做法,將邊框回歸和分類(lèi)使用同一組卷積進(jìn)行計(jì)算,然后split成兩份。下圖就是最終得到的輕量化檢測(cè)頭的結(jié)構(gòu),非常的小巧:

NanoDet檢測(cè)頭

FPN層改進(jìn)

目前針對(duì)FPN的改進(jìn)有許多,如EfficientDet使用了BiFPN,yolo v4和yolo v5使用了PAN,除此之外還有BalancedFPN等等。BiFPN雖然性能強(qiáng)大,但是堆疊的特征融合操作勢(shì)必會(huì)帶來(lái)運(yùn)行速度的降低,而PAN只有自上而下和自下而上兩條通路,非常的簡(jiǎn)潔,是輕量級(jí)模型特征融合的好選擇。
原版的PAN和yolo中的PAN,都使用了stride=2的卷積進(jìn)行大尺度Feature Map到小尺度的縮放。我為了輕量化的原則,選擇完全去掉PAN中的所有卷積,只保留從骨干網(wǎng)絡(luò)特征提取后的1x1卷積來(lái)進(jìn)行特征通道維度的對(duì)齊,上采樣和下采樣均使用插值來(lái)完成。與yolo使用的concatenate操作不同,我選擇將多尺度的Feature Map直接相加,使得整個(gè)特征融合模塊的計(jì)算量變得非常非常小。
最終的極小版PAN的結(jié)構(gòu)也是非常簡(jiǎn)單:

超輕量的PAN

Backbone的選擇

原本有考慮過(guò)自己魔改一個(gè)輕量級(jí)的backbone出來(lái),但是最后評(píng)估了一下感覺(jué)工作量太大了(在家訓(xùn)練模型電費(fèi)太貴),就打算選擇使用現(xiàn)有的一些輕量級(jí)骨干網(wǎng)絡(luò)。最開(kāi)始的選擇有MobileNet系列,GhostNet,ShuffleNet,還有最近的EfficientNet。在評(píng)估了參數(shù)量、計(jì)算量以及權(quán)重大小之后,還是選擇了ShuffleNetV2作為骨干網(wǎng)絡(luò),因?yàn)樗沁@些模型里面在相似精度下體積最小的,而且對(duì)移動(dòng)端CPU推理也比較友好。
最終我選擇使用ShuffleNetV2 1.0x作為backbone,去掉了最后一層卷積,并且抽取8、16、32倍下采樣的特征輸入進(jìn)PAN做多尺度的特征融合。整個(gè)骨干模型使用了Torchvision提供的代碼,能夠直接加載Torchvision上提供的imagenet預(yù)訓(xùn)練權(quán)重,對(duì)加快模型收斂有很大的幫助。順便一提,最近有些論文指出使用分類(lèi)的預(yù)訓(xùn)練權(quán)重初始化模型對(duì)檢測(cè)任務(wù)的效果不如隨機(jī)初始化的好,不過(guò)這要付出訓(xùn)練更多步數(shù)的代價(jià),我還沒(méi)有測(cè)試過(guò),歡迎大家嘗試~

NanoDet整體模型結(jié)構(gòu)

模型性能

在經(jīng)過(guò)對(duì)one-stage檢測(cè)模型三大模塊(Head、Neck、Backbone)都進(jìn)行輕量化之后,得到了目前開(kāi)源的NanoDet-m模型,在320x320輸入分辨率的情況下,整個(gè)模型的Flops只有0.72B,而yolov4-tiny則有6.96B,小了將近十倍!模型的參數(shù)量也只有0.95M,權(quán)重文件在使用ncnn optimize進(jìn)行16位存儲(chǔ)之后,只有1.8mb,非常適合在移動(dòng)端部署,能夠有效減少APP體積,同時(shí)也對(duì)更低端的嵌入式設(shè)備更加友好。
盡管模型非常的輕量,但是性能卻依舊強(qiáng)勁。對(duì)于小模型,往往選擇使用AP50這種比較寬容的評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比,這里我選擇用更嚴(yán)格一點(diǎn)的COCO mAP(0.5:0.95)作為評(píng)估指標(biāo),同時(shí)兼顧檢測(cè)和定位的精度。在COCO val 5000張圖片上測(cè)試,并沒(méi)有使用Testing-Time-Augmentation的情況下,320分辨率輸入能夠達(dá)到20.6的mAP,比tiny-yolov3高4分,只比yolov4-tiny低1個(gè)百分點(diǎn),而將輸入分辨率與yolo保持一致,都使用416輸入的情況下,得分持平。
最后用ncnn部署到手機(jī)上之后跑了一下benchmark,模型前向計(jì)算時(shí)間只要10毫秒左右,對(duì)比yolov3和v4 tiny,均在30毫秒的量級(jí)。在安卓攝像頭demo app上,算上圖片預(yù)處理,檢測(cè)框后處理以及繪制檢測(cè)框的時(shí)間,也能輕松跑到40+FPS~。(關(guān)于模型從pytorch到安卓的部署,以及如何用C++實(shí)現(xiàn)GFL檢測(cè)框的后處理,我會(huì)再專(zhuān)門(mén)發(fā)一遍文章詳細(xì)介紹)

ncnn 安卓benchmark對(duì)比

總結(jié)

NanoDet總體而言沒(méi)有特別多的創(chuàng)新點(diǎn),是一個(gè)純工程化的項(xiàng)目,主要的工作就是將目前學(xué)術(shù)界的一些優(yōu)秀論文,落地到移動(dòng)端的輕量級(jí)模型上。最后通過(guò)這些論文的組合,得到了一個(gè)兼顧精度、速度和體積的檢測(cè)模型。
為了讓大家能夠快速使用NanoDet,方便訓(xùn)練和部署,我已經(jīng)把Pytorch的訓(xùn)練代碼、基于NCNN的Linux和windowsC++部署代碼以及Android攝像頭Demo全部開(kāi)源,同時(shí)在Readme中也包含了非常詳細(xì)的教程,歡迎大家使用,歡迎提issue~
順便提一句,NanoDet訓(xùn)練并沒(méi)有用到很多數(shù)據(jù)增強(qiáng)的技巧,模型結(jié)構(gòu)也非常簡(jiǎn)單,也就是說(shuō)mAP應(yīng)該還有很大的提升空間,如果有小伙伴愿意魔改一下再漲幾個(gè)點(diǎn)那就再好不過(guò)了(嘻嘻)。
最后的最后,Github求Star?。?!

RangiLyu/nanodet: ?Super fast and lightweight anchor-free object detection model. Only 1.8mb and run 97FPS on cellphone (github.com)?github.com

/=======================================================

11月25日更新:

大家都太熱情了!NanoDet僅開(kāi)源三天Github就已經(jīng)突破900star,并且登上了Github趨勢(shì)榜!

感謝各位大佬的支持,特別感謝李翔老師的論文給NanoDet模型的啟發(fā),以及ncnn作者nihui在項(xiàng)目初期的推廣~大家快去給ncnn和GFocalLoss點(diǎn)star??!

Tencent/ncnn: ncnn is a high-performance neural network inference framework optimized for the mobile platform (github.com)?github.comimplus/GFocal: Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection (github.com)?github.com

之前一直在ncnn群里面討論NanoDet,感覺(jué)不太合適,所以專(zhuān)門(mén)建了一個(gè)討論群:908606542 (進(jìn)群答案:煉丹) 歡迎大家來(lái)討論~

推薦閱讀

更多Tengine相關(guān)內(nèi)容請(qǐng)關(guān)注Tengine-邊緣AI推理框架專(zhuān)欄。

審核編輯:符乾江
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50098

    瀏覽量

    265399
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124398
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    YOLO5目標(biāo)檢測(cè)方案-基于米爾RK3576開(kāi)發(fā)板

    實(shí)時(shí)性:完成從攝像頭采集→NPU推理→屏幕顯示的完整流程,耗時(shí)不超過(guò)攝像頭幀的時(shí)間。 輸入/輸出:盡可能提高攝像頭采集幀率,并在顯示支持更高的輸出分辨率。 功能:實(shí)現(xiàn)YOLO5s目標(biāo)
    發(fā)表于 01-22 19:21

    基于iTOP-3568核心板的YOLO目標(biāo)檢測(cè)全棧解決方案

    在智能制造、智慧安防、智能交通等領(lǐng)域,實(shí)時(shí)、精準(zhǔn)的目標(biāo)檢測(cè)技術(shù)正成為行業(yè)智能化轉(zhuǎn)型的核心需求。然而,傳統(tǒng)方案面臨云端延遲高、網(wǎng)絡(luò)依賴(lài)強(qiáng)、成本居高不下等挑戰(zhàn)?,F(xiàn)在,基于瑞芯微RK3568處理器的iTOP-3568開(kāi)發(fā)板,為您帶來(lái)實(shí)時(shí)響應(yīng)、高性?xún)r(jià)比的
    的頭像 發(fā)表于 01-21 16:44 ?983次閱讀
    基于iTOP-3568核心板的<b class='flag-5'>YOLO</b><b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測(cè)</b>全棧解決方案

    部署輕量化YOLO模型

    YOLO物聯(lián)網(wǎng)聆思CSK6
    的頭像 發(fā)表于 12-14 07:47 ?1485次閱讀

    Termux手機(jī)攝像頭采集圖像/視頻流 部署 YOLO 模型推理

    Termux手機(jī)攝像頭采集圖像/視頻流 部署 YOLO 模型推理
    的頭像 發(fā)表于 12-14 07:26 ?2858次閱讀

    廣和通發(fā)布側(cè)目標(biāo)檢測(cè)模型FiboDet

    為提升側(cè)設(shè)備視覺(jué)感知與決策能力,廣和通全自研側(cè)目標(biāo)檢測(cè)模型FiboDet應(yīng)運(yùn)而生。該模型基于
    的頭像 發(fā)表于 09-26 13:39 ?1608次閱讀

    單板挑戰(zhàn)4路YOLOv8!米爾瑞芯微RK3576開(kāi)發(fā)板性能實(shí)測(cè)

    運(yùn)算。使用YOLOv8模型時(shí)也是手到擒來(lái),接下來(lái)隨著步伐看看它表現(xiàn)如何。YOLO簡(jiǎn)介YOLO(You Only Look Once)是當(dāng)前業(yè)界領(lǐng)先的實(shí)時(shí)目標(biāo)
    發(fā)表于 09-12 17:52

    如何進(jìn)行YOLO模型轉(zhuǎn)換?

    我目前使用的轉(zhuǎn)模型代碼如下 from ultralytics import YOLOimport cv2import timeimport nncaseimport# 加載預(yù)訓(xùn)練的YOLO模型
    發(fā)表于 08-14 06:03

    RK3576 yolo11-seg訓(xùn)練部署教程

    和分割頭設(shè)計(jì),實(shí)現(xiàn)了像素級(jí)的精確目標(biāo)檢測(cè)與分割,適用于自動(dòng)駕駛、醫(yī)學(xué)影像、工業(yè)檢測(cè)等對(duì)精度和速度要求苛刻的場(chǎng)景。本教程針對(duì)目標(biāo)分割算法yolov11seg的訓(xùn)練和部
    的頭像 發(fā)表于 07-25 15:21 ?1815次閱讀
    RK3576 <b class='flag-5'>yolo</b>11-seg訓(xùn)練部署教程

    基于RK3576開(kāi)發(fā)板的yolov11-track多目標(biāo)跟蹤部署教程

    的顯著進(jìn)步基礎(chǔ)上,YOLO11在架構(gòu)和訓(xùn)練方法上引入了重大改進(jìn),使其成為廣泛計(jì)算機(jī)視覺(jué)任務(wù)的靈活選擇。Bytetrack多目標(biāo)跟蹤是種tracking-by-det
    的頭像 發(fā)表于 07-25 15:21 ?1917次閱讀
    基于RK3576開(kāi)發(fā)板的yolov11-track多<b class='flag-5'>目標(biāo)</b>跟蹤部署教程

    【Sipeed MaixCAM Pro開(kāi)發(fā)板試用體驗(yàn)】 + 04 + 機(jī)器學(xué)習(xí)YOLO體驗(yàn)

    滿(mǎn)意,不僅是從 平臺(tái)的技術(shù)支持 ,還是 開(kāi)發(fā)板的體驗(yàn)效果 ,都遠(yuǎn)超我的預(yù)期。特別是 AI方面的應(yīng)用 , YOLO模型識(shí)別 ,人臉情緒檢測(cè),手勢(shì)檢測(cè)等,如果你對(duì)這方面很感興趣的話(huà),我認(rèn)為
    發(fā)表于 07-24 21:35

    如何在樹(shù)莓派 AI HAT+上進(jìn)行YOLO姿態(tài)估計(jì)?

    YOLO目標(biāo)檢測(cè)?如何在樹(shù)莓派AIHAT+上進(jìn)行YOLO姿態(tài)估計(jì)?今天是第四部分:如何在樹(shù)莓派AIHAT+上進(jìn)行YOLO姿態(tài)估計(jì)?如果大家
    的頭像 發(fā)表于 07-20 20:34 ?1012次閱讀
    如何在樹(shù)莓派 AI HAT+上進(jìn)行<b class='flag-5'>YOLO</b>姿態(tài)估計(jì)?

    如何在樹(shù)莓派 AI HAT+上進(jìn)行YOLO目標(biāo)檢測(cè)?

    YOLO目標(biāo)檢測(cè)?如何在樹(shù)莓派AIHAT+上進(jìn)行YOLO姿態(tài)估計(jì)?今天是第三部分:如何在樹(shù)莓派AIHAT+上進(jìn)行YOLO
    的頭像 發(fā)表于 07-19 08:34 ?1729次閱讀
    如何在樹(shù)莓派 AI HAT+上進(jìn)行<b class='flag-5'>YOLO</b><b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測(cè)</b>?

    usb攝像頭輸入的圖像,哪種格式才能讓yolo正常檢測(cè)

    = yolo.run(img)這步會(huì)導(dǎo)致系統(tǒng)卡死,應(yīng)該是圖片格式不符合 yolo用的自訓(xùn)練yolov11模型,使用默認(rèn)的板載攝像頭沒(méi)有問(wèn)題。 軟硬件版本信息 立創(chuàng)廬山派CANMV
    發(fā)表于 06-13 07:55

    基于LockAI視覺(jué)識(shí)別模塊:C++目標(biāo)檢測(cè)

    是基于百度飛槳深度學(xué)習(xí)框架開(kāi)發(fā)的個(gè)高效的目標(biāo)檢測(cè)庫(kù),支持多種先進(jìn)的目標(biāo)檢測(cè)模型,如
    發(fā)表于 06-06 14:43

    labview調(diào)用yolo目標(biāo)檢測(cè)、分割、分類(lèi)、obb

    labview調(diào)用yolo目標(biāo)檢測(cè)、分割、分類(lèi)、obb、pose深度學(xué)習(xí),支持CPU和GPU推理,32/64位labview均可使用。 (yolov5~yolov12)
    發(fā)表于 03-31 16:28