黄色电影小视频在线播放,天堂最新网址AV,午夜福利中文版字幕在线看

一、開源

MogFace: Towards a Deeper Appreciation on Face Detection

1. 論文鏈接：

https://openaccess.thecvf.com/content/CVPR2022/papers/Liu_MogFace_Towards_a_Deeper_Appreciation_on_Face_Detection_CVPR_2022_paper.pdf

2. 代碼模型：

https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary

3. 可玩應用：

https://modelscope.cn/studios/baigui/face_album/summary

二、背景

人臉檢測算法是在一幅圖片或者視頻序列中檢測出來人臉的位置，給出人臉的具體坐標，一般是矩形坐標。它是人臉關鍵點、屬性、編輯、風格化、識別等模塊的基礎。本文通過實驗觀察發(fā)現(xiàn)，對應設計出如下三個模塊構建出一個高性能的人臉檢測器MogFace：1.）動態(tài)標簽分配策略（dynamic label assignment），2.）誤檢上下文相關性分析（FP context analysis），3.）金字塔層級監(jiān)督信號分配（pyramid layer level GT assignment）。該方法的模型在WIDER FACE榜單上取得了截止目前將近兩年的六項第一。

三、觀察

1.1 動態(tài)標簽分配策略（dynamic label assignment）

為每個anchor點定義cls和reg目標是訓練檢測器的必要過程，在人臉檢測中這個過程稱之為標簽分配（Label Assignment）。最近，標簽分配吸引了諸多研究人員的注意，在人臉檢測及通用物體檢測領域提出了一系列方法，例如：OTA、PAA，ATSS以及HAMBox。如示例圖(a)，標簽分配過程依賴4個元素。分別是：1.）offline information: a.）IoU (anchor與ground-truth框的IoU) ， b.）CPD (anchor與ground-truth中心點的距離) ，2.）online information: a.）PCS (cls分支對anchor的前景分類概率值) ，b.）PLC (reg分支對anchor的預測坐標值)。

但是，目前的標簽分配方法存在三個問題。1.）若只用offline information做靜態(tài)標簽分配，那么會有很多具備更強回歸能力的negative anchor無法被有效利用起來，會導致標簽分配策略欠飽和。2.）若過度信任online information動態(tài)調整正負anchor時（如OTA和Hambox），由于online information屬于預測信息可信度不高，會導致標簽分配策略錯誤多，極端情況下會陷入trivial 的分配結果。3.) 若引入大量超參（K in ATSS, alpha in OTA）做標簽分配，則當數(shù)據(jù)集分布發(fā)生變化時，需要大量的調參時間。

1.2 誤檢上下文相關性分析（FP context analysis）

在實際應用中，人臉檢測器并不會十分care AP的指標，而對誤檢（false positive [FP]）的數(shù)量十分敏感。針對這個問題，目前的做法是收集大量帶有FP的圖片去fine-tune或者from scratch訓練檢測器，來幫助檢測器了解更多范式的FP，但是我們發(fā)現(xiàn)有些頻繁出現(xiàn)在訓練集中的的FP在這種策略下無法有效解決。這篇文章，我們發(fā)現(xiàn)了一個有趣的現(xiàn)象：對于同一個FP，當它的context發(fā)生變化時，對于同一個檢測器來說它可能就不是FP了。如下圖(c)，最左面的圖片里日歷是FP，剩余兩張日歷都不是FP。

1.3 金字塔層級監(jiān)督信號分配（pyramid layer level GT assignment）

scale-level 數(shù)據(jù)增強策略常常作通用物體檢測以及人臉檢測中解決scale variance主要手段。如圖(b)所示，相對于COCO，人臉檢測數(shù)據(jù)集Wider Face 中人臉的尺度分布更為嚴峻。為此，我們分提出了一個新的問題，如何合理的分配ground-truth 在不同pyramidlayer上的分布？即檢測器的性能與每個pyramidlayer匹配ground-truth的個數(shù)之間的關系是什么？是否越多越好？通過嚴格的對比實驗我們發(fā)現(xiàn)：“對于所有的pyramid layer來說，并不是這個pyramid layer匹配到越多的ground-truth就越好”。這說明要挖掘每一個pyramidlayer的最好性能，需要控制在這個pyramidlayer上的ground-truth分配的比例。

四、方法

2.1 Adaptive Online Incremental Anchor Mining Strategy (Ali-AMS)

針對上述“動態(tài)標簽分配策略（dynamic label assignment）”觀察分析，本文提出了在里面一種自適應的在線增量錨挖掘策略（Ali-AMS），它基于standard anchor matching 策略，并進一步adaptive 幫助outlier face匹配anchor。如下：

2.2 Hierachical Context-Aware Module (HCAM)

基于上述“誤檢上下文相關性分析（FP context analysis）”觀察分析，發(fā)現(xiàn)“對于同一個FP，當它的context發(fā)生變化時，對于同一個檢測器來說他可能就不是FP了”，我們進一步提出了一個two-step的模塊來顯示的encode context 信息來幫助區(qū)分FP和TP，顯著減少了FP的數(shù)量。

2.3 Selective Scale Enhancement Strategy （SSE）

基于上述的“金字塔層級監(jiān)督信號分配（pyramid layer level GT assignment）”觀察分析，發(fā)現(xiàn)“對于所有的pyramid layer來說，并不是這個pyramid layer匹配到越多的ground-truth就越好”，我們提出通過控制pyramid layer 匹配的ground-truth的數(shù)量來最大化pyramid layer 的性能。