久草福利免费在线,亚洲第二视频中国性少妇视频,黄色A极大片特级a黄片

首發(fā)：AIWalker

標(biāo)題&作者團(tuán)隊(duì)

該文是浙江大學(xué)&微軟提出的一種實(shí)時(shí)視頻增強(qiáng)方案(ACM Multimedia 2020)，它不僅可以達(dá)到SOTA的視頻增強(qiáng)效果，同時(shí)對(duì)于1080P的視頻可以達(dá)到驚人的77fps@Tesla P40GPU或者45fps@CPU端。

Abstract

實(shí)時(shí)視頻增強(qiáng)具有巨大的潛在應(yīng)用場(chǎng)景，但是現(xiàn)有的方案遠(yuǎn)遠(yuǎn)不足以滿足視頻增強(qiáng)的實(shí)時(shí)性與穩(wěn)定性需求。

該文提出一種新穎的AI視頻增強(qiáng)方法，它能夠單CPU以45fps處理1080P視頻，極具產(chǎn)品化應(yīng)用價(jià)值。所提方法基于輕量型MobileNetV2設(shè)計(jì)，并在此基礎(chǔ)上引入了時(shí)序特征集(Temporal Feature Aggregation, TFA)成模塊以確保視頻的時(shí)序一致性。不同于已有多數(shù)圖像增強(qiáng)方法采用encoder-decoder架構(gòu)生成通分辨率的輸出，該文所提方法消除了decoder模塊，而僅僅采用了encoder部分與一個(gè)小的head模塊。所提方法直接預(yù)測(cè)顏色映射函數(shù)，而非像素值，這就使得所提方法可以更好的處理任意分辨率的視頻。除此之外，該文還引入了TFA以確保生成視頻的時(shí)序一致性。

最后，作者通過(guò)實(shí)驗(yàn)證實(shí)：所提方法可以適用于不同類型的增強(qiáng)任務(wù)，比如relighting, retouching 以及dehazing等。相比已有方法(比如HDRNet、UPE)，所提方法不僅可以取得SOTA性能，同時(shí)處理速度快10倍(HD視頻哦)。

image-20201121193610283

該文的主要貢獻(xiàn)包含以下三點(diǎn)：

提出一種新穎的實(shí)時(shí)圖像/視頻增強(qiáng)方法，所提方法比現(xiàn)有實(shí)時(shí)方法(HDRNet,UPE)快10倍(處理的對(duì)象是1080P視頻哦)；
提出一種廣義的圖像增強(qiáng)表達(dá)方式，它可以有效的集成全局上下文信息與局部信息進(jìn)行像素映射。實(shí)驗(yàn)證實(shí)：所提方法可以處理欠曝光、過(guò)曝光、retouching、dehazing等場(chǎng)景圖像；
提出一種TFA用于確保視頻的時(shí)序一致性，甚至可以進(jìn)一步改善訓(xùn)練的穩(wěn)定性。

Method

該文提出了一種end-to-end輕量CNN用于實(shí)時(shí)視頻增強(qiáng)，接下來(lái)，我們將從問(wèn)題定義、視頻增強(qiáng)網(wǎng)絡(luò)、損失函數(shù)三個(gè)方面展開(kāi)本文所提方法的介紹。

Problem Formulation

現(xiàn)有稠密像素預(yù)測(cè)任務(wù)大多采用encoder-decoder方案，而decoder部分的高計(jì)算量問(wèn)題是難以忽視的。估計(jì)顏色映射函數(shù)是一種極具吸引力的方向，然而它有這樣兩個(gè)挑戰(zhàn)：(1) 單一映射函數(shù)難以反映復(fù)雜的局部圖像處理計(jì)算問(wèn)題；(2) 現(xiàn)有的顏色映射函數(shù)往往基于用戶評(píng)價(jià)或參考圖像，而無(wú)參考自動(dòng)校正則會(huì)“模棱兩可”。

受啟發(fā)于“Bilateral Guided Upsampling”與“Fast Guided Filter”(兩種非常經(jīng)典的傳統(tǒng)圖像處理方法)，該文構(gòu)建了一種網(wǎng)格狀態(tài)的映射函數(shù)，它不僅可以獲得局部區(qū)域的更細(xì)粒度的細(xì)節(jié)，同時(shí)可以更好的切合encoder部分的CNN結(jié)構(gòu)。輸入圖像I經(jīng)過(guò)CNN處理后，可以得到一個(gè)大小為的特征。網(wǎng)格中每個(gè)特征點(diǎn)信息與網(wǎng)格中的映射函數(shù)參數(shù)相關(guān)，并用于預(yù)測(cè)映射函數(shù)，并反過(guò)來(lái)作用于局部區(qū)域。下圖給出了該過(guò)程的示意圖，也就是說(shuō)圖像將被進(jìn)行分塊處理，每個(gè)塊采用不同的映射函數(shù)。

image-20201121195843151

映射函數(shù)在這里定義為分片線性函數(shù)，定義如下：

其中，L表示映射函數(shù)的分片數(shù)量，表示每個(gè)線性函數(shù)的斜率。因此，網(wǎng)絡(luò)的目標(biāo)在于預(yù)測(cè)映射函數(shù)的系數(shù)。

看到這里，也許會(huì)有不少同學(xué)不知道這里的系數(shù)與映射函數(shù)該怎么去應(yīng)用。其實(shí)這個(gè)地方?jīng)]想象的那么復(fù)雜。先來(lái)個(gè)最簡(jiǎn)單的情形：，即恒等映射，也就是圖像不做任何操作，此時(shí)有。如果我們希望調(diào)整圖像的亮區(qū)呢，其實(shí)就需要將亮區(qū)對(duì)應(yīng)的斜率調(diào)大，而其他區(qū)域?qū)?yīng)的斜率調(diào)??；類似的，如果我們希望調(diào)整圖像的暗區(qū)，就需要調(diào)整其對(duì)應(yīng)的斜率。也就是說(shuō)，通過(guò)每一段線性函數(shù)的斜率，它可以輕松的構(gòu)建不同形狀的映射函數(shù)，而這個(gè)映射函數(shù)則對(duì)應(yīng)于傳統(tǒng)圖像處理中的累積直方圖。

對(duì)此該興趣的同學(xué)，非常建議去了解一下直方圖均衡相關(guān)的一些基礎(chǔ)知識(shí)，可以參考剛薩雷斯的《圖像處理》第三章的直方圖均衡。其實(shí)這個(gè)地方的映射函數(shù)理解還可以參考PhotoShop中的直方圖類增強(qiáng)方案，通過(guò)調(diào)節(jié)直方圖的形狀達(dá)到不同的編輯目的，Photoshop中的直方圖調(diào)整方法其實(shí)與這里的調(diào)整機(jī)制是相通的。

Video Enhancement Network

image-20201121195529411

上圖給出了該文所提出的視頻增強(qiáng)網(wǎng)絡(luò)架構(gòu)示意圖，它包含一個(gè)輕量型基礎(chǔ)網(wǎng)路與一個(gè)時(shí)序特征集成模塊。

Baseline Image Network 上圖的下半部分給出了基礎(chǔ)網(wǎng)絡(luò)部分，注：下角標(biāo)t表示視頻的時(shí)序標(biāo)簽。輸入圖像I首先下采樣到低分辨率，然后送入到基礎(chǔ)網(wǎng)絡(luò)中回歸映射系數(shù)集。這里的基礎(chǔ)網(wǎng)絡(luò)是在MobileNetV2的基礎(chǔ)上改進(jìn)而來(lái)，它用于將圖像映射到高維空間并得到隱狀態(tài)特征。在上述網(wǎng)絡(luò)的后端接一個(gè)head，它包含三個(gè)卷積用于將隱狀態(tài)特征變換為顏色映射系數(shù)。最終輸出的形狀為。最后，目標(biāo)圖像則是由輸入圖像經(jīng)由映射函數(shù)變換得到。

Temporal feature aggregation 視頻增強(qiáng)網(wǎng)絡(luò)是在上述圖像增強(qiáng)網(wǎng)絡(luò)的基礎(chǔ)上插入TFA得到，TFA用于促使時(shí)序一致性。為緩解閃爍偽影問(wèn)題，作者認(rèn)為：靜態(tài)區(qū)域應(yīng)當(dāng)有相鄰兩幀賦予相似的注意力，運(yùn)動(dòng)區(qū)域則主要由當(dāng)前幀決定，而區(qū)域的運(yùn)動(dòng)/靜態(tài)特性則由相鄰幀的相關(guān)性決定。基于該假設(shè)，作者設(shè)計(jì)了如下的特征集成方式：

其中，分別表示融合特征，前一幀的影響因子，以及像素級(jí)特征相似性。特征的相似性計(jì)算方式則是采用的cosine相似性（上圖也給出了相鄰幀的相似性圖示），公式如下：

$$M/_g = cos/= //frac{f/_{t-1} //cdot f/_t}{//|f/_{t-1} //| //cdot //|f/_t //|} $$

Loss Function

給定預(yù)測(cè)的映射系數(shù)與高分辨率圖像，我們可以通過(guò)相應(yīng)的變換得到目標(biāo)圖像(假設(shè)表示GT)。為更好的訓(xùn)練上述模型，作者提出了一個(gè)同時(shí)考慮圖像距離關(guān)系和映射函數(shù)約束的損失函數(shù)，定義如下：

損失函數(shù)的四部分分別對(duì)應(yīng)重建損失(損失)、感知損失、平滑損失以及時(shí)序一致性損失。更具體的函數(shù)定義建議查看原文，這里不再贅述。

Experiments

在實(shí)現(xiàn)方面，輸入圖像首先被下采樣到大小，映射函數(shù)的分片數(shù)，對(duì)應(yīng)的輸出通道數(shù)為48。正如前述，骨干網(wǎng)絡(luò)包含5個(gè)階段，前四個(gè)階段與MobileNetV2相同，最后一個(gè)階段包含三個(gè)卷積，其參數(shù)為：。head部分由三個(gè)卷積構(gòu)成，其輸出通道數(shù)分別為。最終的輸出經(jīng)tanh激活，其對(duì)應(yīng)了映射系數(shù)的對(duì)數(shù)值。假設(shè)表示每個(gè)通道的輸出，那么映射函數(shù)可以表示為其中用于控制映射函數(shù)的范圍。基于上述表達(dá)，曲線的范圍將被限制在.

在超參方面，。作者選用Adam+L2正則進(jìn)行訓(xùn)練，batch=32，學(xué)習(xí)率為0.005,經(jīng)40k迭代后衰減到0.001.

我們先來(lái)看一下所提方法在圖像增強(qiáng)方面的效果，見(jiàn)下圖&下表。從中可以看到：(1) 相比HDRNet，所提方法具有更快的推理速度，更高的PSNR、SSIM等指標(biāo)；(2) 相比HDRNet、UPE等方法，所提方法生成結(jié)果具有更好的對(duì)比度和顏色分布。

接下來(lái)，我們?cè)賮?lái)看一下所提方法在視頻增強(qiáng)方面的效果，見(jiàn)下圖&下表?？梢钥吹剑?strong>所提方法具有更高的PSNR指標(biāo)；更快的推理速度；更好的時(shí)序一致性。

image-20201122132832313

image-20201122132857742

最后，我們?cè)賮?lái)看一下所提方法在去霧任務(wù)上的表現(xiàn)，見(jiàn)下圖。從中可以看到：所提方法在圖像去霧任務(wù)上同樣取得了SOTA指標(biāo)與視覺(jué)效果。

image-20201122133254136

Conclusion

該文從AI+直方圖的角度提出了一種實(shí)時(shí)圖像/視頻增強(qiáng)方法，它采用encoder網(wǎng)絡(luò)預(yù)測(cè)映射函數(shù)系數(shù)，然后將得到的映射函數(shù)作用于輸入圖像得到期望的輸出圖像。這種處理方式將輸入分辨率與方法進(jìn)行了解耦，進(jìn)而使得Image-to-Image類方法的的產(chǎn)品化應(yīng)用提供了一個(gè)非常有參考價(jià)值的方向。盡管所提方法在圖像/視頻增強(qiáng)方面取得了非常好的效果和推理速度，但該方法對(duì)于低光/帶噪圖像的效果并不太好，甚至?xí)M(jìn)一步造成噪聲放大，當(dāng)然，這也是直方圖增強(qiáng)類方案的缺陷所在。

image-20201122134143102