91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

BidNet:在雙目圖像上完成去霧操作,不用視差估計

電子設(shè)計 ? 來源:電子設(shè)計 ? 作者:電子設(shè)計 ? 2020-12-10 15:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:SFXiang
首發(fā):AI算法修煉營

本文是收錄于CVPR2020的工作,我是被雙目圖像去霧的題目所吸引的,其實整個工作的創(chuàng)新性不高,但是可以從中學到數(shù)據(jù)集的制作,圖像去霧等基本知識。整體上,也可以看作視覺注意力機制的又一應用。

論文地址:
http://openaccess.thecvf.com/.../_CVPR/_2020/papers/Pang/_BidNet/_Binocular/_Image/_Dehazing/_Without/_Explicit/_Disparity/_Estimation/_CVPR/_2020/_paper.pdf

嚴重的霧度會導致圖像質(zhì)量嚴重下降,從而影響視覺感知、目標檢測等性能。通常,去霧化的雙目圖像在像3D目標檢測等立體視覺任務(wù)上的表現(xiàn)要優(yōu)于霧度較高的圖像,并且圖像霧度是一個與深度有關(guān)的函數(shù)。在這些基礎(chǔ)上,本文提出了一種雙目圖像去霧網(wǎng)絡(luò)(BidNet),旨在利用深度學習框架的對雙目左右圖像進行去霧。

現(xiàn)有的雙目除霧方法依賴于同時除霧和估計視差,而BidNet不需要明確執(zhí)行耗時長、具有挑戰(zhàn)性的視差估計任務(wù)。但是,由于視差的小誤差會引起深度變化和無霧圖像估計的大變化,BidNet網(wǎng)絡(luò)中所提出的立體變換模塊(STM)編碼了雙目圖像之間的關(guān)系和相關(guān)性。 同時,對雙目圖像中的左右圖像同時進行除霧是互利的,這比僅對左圖像除霧要好。最后,作者將Foggy Cityscapes數(shù)據(jù)集擴展為具有雙目有霧圖像對的Stereo Foggy Cityscapes數(shù)據(jù)集。實驗結(jié)果表明,在主觀和客觀評估中,BidNet均明顯優(yōu)于最新的除霧方法。

簡介

計算機視覺領(lǐng)域,通常使用霧天圖像退化模型來描述霧霾等惡劣天氣條件對圖像造成的影響,該模型是McCartney首先提出。該模型包括衰減模型和環(huán)境光模型兩部分。模型表達式為:

其中,是圖像像素的空間坐標,是觀察到的有霧圖像,是待恢復的無霧圖像,表示大氣散射系數(shù),代表景物深度,是全局大氣光,通常情況下假設(shè)為全局常量,與空間坐標無關(guān)。

公式(1)中的表示坐標空間處的透射率,使用來表示透射率,于是得到公式(2):

由此可見,圖像去霧過程就是根據(jù)求解的過程。要求解出,還需要根據(jù)求解出透射率和全局大氣光。

實際上,所有基于霧天退化模型的去霧算法就是是根據(jù)已知的有霧圖像求解出透射率和全局大氣光 。

根據(jù)上述等式可知,圖像霧度是深度的函數(shù)。雙目圖像的相關(guān)性可以幫助預測深度,這表明雙目圖像對于除霧任務(wù)是有益的。為了克服霧度造成的雙目圖像退化,直接和分別在左霧圖像和右霧圖像上應用單個圖像去霧方法不能獲得令人滿意的結(jié)果,尤其是對于重霧度,因為這種方法沒有利用雙目圖像。

現(xiàn)有的雙目圖像去霧方法依賴于同時執(zhí)行去霧和視差估計。然而,這種方法有三個缺點:(1)對于給定的微小視差誤差,深度誤差會隨著視差的增加而增加。因為估計透射圖對去霧圖像是必需的,并且透射圖是深度的指數(shù)函數(shù),誤差不均也導致在估計透射圖時出現(xiàn)較大誤差,并妨礙了無霧度圖像。(2)最新的基于學習的視差估計方法很耗時,因為它們必須應用3D卷積,計算量大。(3)這些方法僅輸出左去霧圖像,而不是雙目去霧圖像對。在本文中,提出了一種新穎的基于深度學習的雙目圖像去霧網(wǎng)絡(luò)(BidNet),該網(wǎng)絡(luò)能夠利用左右圖像中包含的協(xié)作信息,而無需明確執(zhí)行耗時且具有挑戰(zhàn)性的視差估計環(huán)節(jié)。

圖1.使用提出的BibNet樣本圖像去霧結(jié)果。左上:輸入左霧圖像。左下:輸入右霧圖像。右上:去霧左圖像。右下:去霧右圖像

對于基于深度學習的雙目圖像去霧任務(wù),沒有包含雙目霧圖像的特定數(shù)據(jù)集。通過將霧添加到Cityscapes數(shù)據(jù)集中來創(chuàng)建Foggy Cityscapes數(shù)據(jù)集。本文將Foggy Cityscapes數(shù)據(jù)集擴展到Stereo Foggy Cityscapes數(shù)據(jù)集,該數(shù)據(jù)集由雙目有霧圖像對組成。關(guān)鍵是利用視差和給定的攝像機參數(shù)來計算攝像機與左場景之間的距離以及攝像機與右場景之間的距離。在這個過程中,應用了complete pipeline ,它使用不完整的深度信息將合成霧添加到真實,晴朗的天氣圖像中。

主要貢獻:

(1)提出了一種新穎的雙目圖像去霧框架,稱為BidNet,該框架能夠利用左右圖像之間的相關(guān)性對雙目圖像對進行除霧,而無需估計視差, 它可以避免由不精確的視差估計引起的大誤差。

(2)受non-local網(wǎng)絡(luò)的啟發(fā),提出了一種簡單而有效的機制并將其嵌入BidNet中,通過該機制將右圖像特征圖中的有用信息引入左圖像特征圖中。 具體是通過計算立體horizontal non-local相關(guān)矩陣并將該矩陣與右圖像的特征圖相乘來實現(xiàn)的。嵌入的過程是有效的,因為相關(guān)矩陣的大小比傳統(tǒng)的non-local網(wǎng)絡(luò)小一階。類似地,可以將左圖像的特征圖的有用信息嵌入到右圖像的有用信息中。

(3)在輸入左圖像和右圖像的情況下,只能使用上述除霧框架對左圖像或右圖像進行除霧。但是發(fā)現(xiàn),通過同時考慮左右圖像來制定除霧損失函數(shù),可以同時去除左右霧度圖像的霧度,從而產(chǎn)生更好的除霧效果。

(4)擴展了Cityscapes數(shù)據(jù)集以適應去霧任務(wù)。實驗結(jié)果表明,在主觀評估和客觀評估方面,BidNet均明顯優(yōu)于最新的除霧方法。

本文方法:BidNet

圖2.(a)雙目圖像去霧網(wǎng)絡(luò)(BidNet)的總體架構(gòu)。BidNet輸入雙目模糊圖像對并輸出無霧的雙目圖像對。(b)轉(zhuǎn)換模塊(STM)的結(jié)構(gòu)。提出了STM來探索和編碼雙目圖像對之間的關(guān)系

如圖2所示,BidNet網(wǎng)絡(luò)輸入雙目有霧圖像對并估算透射圖、大氣光,同時對雙目圖像對進行去霧。BidNet的架構(gòu)如圖2(a)所示。引入了STM(Stereo Transformation Module )來探索和編碼雙目左右圖像之間的相關(guān)性。

一、Stereo Transmission Map Estimation Network

Stereo Transmission Map Estimation Network(STMENet)可以分為三個部分:權(quán)重共享特征提取模塊,Stereo Transformation Module(STM)和Refinement Module優(yōu)化模塊。

1、權(quán)重共享特征提取模塊(Weight-Shared Feature Extraction Module)

如圖2(a)所示,權(quán)重共享特征提取模塊是編碼器-解碼器結(jié)構(gòu)。

表1. BidNet的詳細架構(gòu)。如果沒有特別說明,則在卷積層之后是BN和ReLU。除權(quán)重共享特征提取模塊外,左分支和右分支中的其余權(quán)重不共享。⊕表示concatenation和一個3×3卷積層以減少通道。上采樣表示雙線性插值。

輸入圖片首先通過預處理層以學習更好的輸入特征。學習到的左(和右)特征通過stride為2的四個3×3卷積層傳遞。四個卷積層的通道增加為32、48、64和96。之后對經(jīng)過卷積的下采樣特征應用四個雙線性插值。通過自下而上和自上而下的結(jié)構(gòu),所獲得的左特征(F1)和右特征(Fr)是有區(qū)別的。

2、Stereo Transformation Module (STM)

權(quán)重共享模塊的左側(cè)和右側(cè)模塊僅融合其自身的信息。沒有利用雙目圖像對之間的關(guān)系和相關(guān)性。于是,設(shè)計了一個Stereo Transformation Module(STM),通過學習左右特征之間的horizontal相關(guān)性來轉(zhuǎn)換深度信息。

圖2(b)表示出了STM的結(jié)構(gòu)。由于雙目圖像對在垂直方向上對齊,因此STM僅需要了解它們之間的水平相關(guān)性。受non-local網(wǎng)絡(luò)的啟發(fā),將某個位置的響應計算為沿水平維度所有位置的特征的加權(quán)總和,這可以捕獲包含視差(深度)信息的遠程依賴關(guān)系。

3、Refinement Module

STM估計的透射圖仍然缺乏全局結(jié)構(gòu)信息??臻g金字塔池是parameter-free的,而且效率很高,于是網(wǎng)絡(luò)中采用空間金字塔池引入多尺度上下文信息來完善透射圖transmission maps,從而增強魯棒性。 上面的表1中顯示了詳細的結(jié)構(gòu),使用了三個平均池化層,內(nèi)核大小分別為3、7和15,步長為1。池化層將初始估計的transmission maps轉(zhuǎn)換為全局表示的增強集合。然后,將這些具有初始估計的transmission maps通過concat進行聚合,并進入1×1卷積層以融合特征。最終,輸出是refine后的透射圖。

二、大氣光估算網(wǎng)絡(luò)Atmospheric Light Estimation Network

大氣光估計網(wǎng)絡(luò)(ALENet)旨在估計大氣光A。如圖2(a)所示,ALENet也是一種編碼器/解碼器結(jié)構(gòu),但沒有尺度的跳躍連接。它包括一個3×3卷積層作為預處理,三個Conv-BN-Relu-Pool塊作為編碼器,三個Up-Conv-BN-Relu塊作為解碼器,最后是一個3×3卷積層估計大氣光A,如表1所示。1.立體圖像對具有相同的大氣光A。因此,ALENet僅輸入左側(cè)圖像進行預測。

三、通過物理散射模型去霧Dehazing via The Physical Scattering Model

如圖2(a)所示,通過等式(2)計算左無霧圖像和右無霧圖像。等式(2)確保整個網(wǎng)絡(luò)同時優(yōu)化。直接計算出的無霧雙目圖像有一些噪點,于是添加了圖像優(yōu)化模塊,這是一個輕量級的密集塊。輕量級密集塊具有四個3×3卷積層,其輸入是在之前生成的特征圖的串聯(lián)。輸入通道的數(shù)量為3、8、16和24,但輸出通道的數(shù)量均為8。最后,采用1×1卷積層來估計精確的無霧雙目圖像。

四、損失函數(shù)

BidNet的損失函數(shù)包括:去霧 的雙目圖像的誤差、透射圖誤差、大氣光的誤差、Perceptual 損失。 在損失函數(shù)中同時考慮了左右圖像的誤差,因此同時對兩個圖像去霧是互利的。

無霧的雙目圖像誤差:

透射圖誤差:

大氣光誤差:

基于從預訓練網(wǎng)絡(luò)中提取的高級特征的Perceptual 損失被廣泛用于圖像超分辨率領(lǐng)域。此外,Perceptual 損失比像素損失更有效地衡量圖像的視覺相似性。受此啟發(fā),作者引入了Perceptual 損失以增加恢復的無霧圖像與真實圖像之間的Perceptual 相似性。 Perceptual 損失利用從預先訓練的深度神經(jīng)網(wǎng)絡(luò)中提取的多尺度特征來量化估計圖像和ground truth之間的視覺差異。本文中,使用在ImageNet 上預先訓練的VGG16 作為loss網(wǎng)絡(luò),并從VGG16中的Conv33中提取特征。Perceptual loss定義為:

Stereo Foggy Cityscapes Dataset

整個數(shù)據(jù)集制作過程參考了文章《Semantic foggy scene understanding with synthetic data》,感興趣的話,可以參考原文。

實驗與結(jié)果

數(shù)據(jù)集:Stereo Foggy Cityscapes Dataset

評價指標:PSNR、SSIM

實驗配置:使用256×256大小的RGB圖像訓練網(wǎng)絡(luò),訓練是在兩臺NVIDIA GeForce GTX 1070上進行的,并且一個GPU用于測試。

1、對比實驗

2、定性評估

3、消融實驗

4、Drivingstereo 數(shù)據(jù)集上的實驗

對于400×881的圖像,BidNet在NVIDIA GeForce GTX 1070上對雙目圖像進行去霧處理的速度為0.23s。

更多實驗細節(jié),可以參考原文。

推薦閱讀

更多機器學習、深度學習、計算機視覺、自動駕駛、機器人等領(lǐng)域最新最前沿的科技請關(guān)注微信號AI算法修煉營。

審核編輯:符乾江
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39793

    瀏覽量

    301402
  • 計算機視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1715

    瀏覽量

    47628
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    奧比中光Gemini 330系列雙目3D相機完成NVIDIA Jetson Thor平臺全面適配

    CES 2026展會期間,奧比中光發(fā)布專為機械臂腕部設(shè)計超小型雙目3D相機Gemini 305 立即購買,并正式宣布其面向機器人的標志性產(chǎn)品Gemini 330系列相機已完成與先進算力平臺
    的頭像 發(fā)表于 01-12 10:22 ?304次閱讀

    雙目視覺是如何實現(xiàn)深度估計的?

    [首發(fā)于智駕最前沿微信公眾號]自動駕駛的純視覺方案中,單目攝像頭因無法直接感知深度,環(huán)境理解存在根本局限,雙目視覺技術(shù)在此需求下應運而生。它通過模擬人眼,利用雙攝像頭的視差來推算距
    的頭像 發(fā)表于 12-31 09:45 ?502次閱讀
    <b class='flag-5'>雙目</b>視覺是如何實現(xiàn)深度<b class='flag-5'>估計</b>的?

    詳解JPEG解碼MCU的實現(xiàn)挑戰(zhàn)

    物聯(lián)網(wǎng)和嵌入式應用中,圖像處理早已不再是高性能處理器的專屬任務(wù)。越來越多的場景需要在資源受限的微控制器(MCU)實現(xiàn)圖像顯示,而JPEG (Joint Photographic E
    的頭像 發(fā)表于 12-26 10:29 ?1009次閱讀

    自動駕駛既然有雙目攝像頭了,為什么還要三目攝像頭?

    [首發(fā)于智駕最前沿微信公眾號]自動駕駛領(lǐng)域,純視覺方案一直受到不少人的認可。雙目攝像頭由于模擬了人眼的工作方式,能夠通過視差計算還原三維信息,距離判斷和空間感知
    的頭像 發(fā)表于 12-09 08:59 ?977次閱讀
    自動駕駛既然有<b class='flag-5'>雙目</b>攝像頭了,為什么還要三目攝像頭?

    車載雙目攝像頭如何“看見”世界?

    [首發(fā)于智駕最前沿微信公眾號]想要讓車輛知道前方有什么、距離多遠、是否可以靠近,首先要做的是讓其“看”清楚環(huán)境。眾多車載感知硬件中,與人類看到世界最類似的一個感知硬件便是車載雙目攝像頭了。 圖片
    的頭像 發(fā)表于 11-13 09:17 ?1422次閱讀
    車載<b class='flag-5'>雙目</b>攝像頭如何“看見”世界?

    電子元器件鹽試驗介紹

    一、鹽試驗概述鹽試驗(SaltSprayTest)是電子元器件可靠性測試中常用的一項環(huán)境腐蝕試驗,主要用于評估產(chǎn)品或金屬表面防護層(如鍍層、涂層、陽極膜等)環(huán)境中的抗腐蝕能力
    的頭像 發(fā)表于 11-06 17:46 ?1478次閱讀
    電子元器件鹽<b class='flag-5'>霧</b>試驗介紹

    雙目環(huán)視立體視覺系統(tǒng)智能駕駛行業(yè)的應用

    智能駕駛技術(shù)飛速發(fā)展的當下,雙目立體視覺憑借其獨特的感知優(yōu)勢, 360 環(huán)視產(chǎn)品方案以及各類輔助駕駛功能中發(fā)揮著關(guān)鍵作用,最新法規(guī)要求與復雜場景下表現(xiàn)突出,為汽車
    的頭像 發(fā)表于 09-23 11:35 ?1160次閱讀

    如何像CanMV IDE預覽哪樣可以Windows讀到實時圖像?

    在做一個產(chǎn)品,需要將識別到的人臉及標注一同顯示自己用c#開發(fā)的MIS軟件中,請教方法。像CanMV IDE中幀緩沖區(qū)預覽那樣。 你好,這個需要自己開發(fā)協(xié)議,IDE是基于CDC通信得,openmv定義了一個協(xié)議,可以傳輸圖像
    發(fā)表于 08-01 06:29

    樹莓派5開啟YOLO姿態(tài)估計識別之旅!

    大家好,接下來會為大家開一個樹莓派5和YOLO的連載文章。內(nèi)容包括四個部分:樹莓派5使用YOLO進行物體和動物識別-入門指南樹莓派5開啟YOLO人體姿態(tài)
    的頭像 發(fā)表于 07-18 15:31 ?2492次閱讀
    <b class='flag-5'>在</b>樹莓派5<b class='flag-5'>上</b>開啟YOLO姿態(tài)<b class='flag-5'>估計</b>識別之旅!

    雙目視覺智能駕駛領(lǐng)域的應用

    圍繞“雙目智駕應用”,我們將推出系列文章深入解析雙目視覺如何跨越技術(shù)鴻溝,中國智駕的沃土上生根發(fā)芽,探索其賦能未來出行的無限可能。
    的頭像 發(fā)表于 07-09 16:21 ?1298次閱讀

    大模型推理顯存和計算量估計方法研究

    估算剪枝后的模型所需的顯存大小。 三、計算量估計方法 基于模型結(jié)構(gòu)的計算量估計 根據(jù)深度學習模型的層次結(jié)構(gòu)和參數(shù)數(shù)量,可以估算模型推理過程中的計算量。具體方法如下: (1)統(tǒng)計模型中各層計算
    發(fā)表于 07-03 19:43

    無法使用OpenVINO? GPU 設(shè)備運行穩(wěn)定擴散文本到圖像的原因?

    OpenVINO? GPU 設(shè)備使用圖像大小 (1024X576) 運行穩(wěn)定擴散文本到圖像,并收到錯誤消息: RuntimeError: Exception from
    發(fā)表于 06-25 06:36

    港口自動化設(shè)備部署:聚徽架式工控一體機的抗鹽防護經(jīng)驗

    和壽命。聚徽架式工控一體機憑借其卓越的抗鹽防護能力,港口自動化設(shè)備部署中發(fā)揮著重要作用。本文將分享聚徽架式工控一體機抗鹽
    的頭像 發(fā)表于 06-24 16:13 ?571次閱讀

    請問k230怎么使用opencv的imshow顯示圖像呢?

    已經(jīng)添加了highgui的鏈接,成功編譯并且板子運行 期待結(jié)果和實際結(jié)果 hdmi屏幕顯示圖像 軟硬件版本信息 錯誤日志 hdmi屏
    發(fā)表于 06-11 06:01

    【AIBOX 應用案例】單目深度估計

    ?Firefly所推出的NVIDIA系列的AIBOX可實現(xiàn)深度估計,該技術(shù)是一種從單張或者多張圖像預測場景深度信息的技術(shù),廣泛應用于計算機視覺領(lǐng)域,尤其是在三維重建、場景理解和環(huán)境感知等任務(wù)中起到
    的頭像 發(fā)表于 03-19 16:33 ?1108次閱讀
    【AIBOX 應用案例】單目深度<b class='flag-5'>估計</b>