用圖神經(jīng)網(wǎng)絡(luò)(GNN)做CV的研究有不少,但通常是圍繞點云數(shù)據(jù)做文章,少有直接處理圖像數(shù)據(jù)的。其實與CNN把一張圖片看成一個網(wǎng)格、Transformer把圖片拉直成一個序列相比,圖方法更適合學(xué)習(xí)不規(guī)則和復(fù)雜物體的特征。
近期中科院與華為諾亞方舟實驗室等提出一種全新的骨干網(wǎng)絡(luò),把圖片表示成圖結(jié)構(gòu)數(shù)據(jù),讓GNN也能完成經(jīng)典CV三大任務(wù)。

該論文引起GNN學(xué)者廣泛關(guān)注。有人認為GNN領(lǐng)域積累多年的技巧都將涌入這一新方向,帶來一波研究熱潮。

在研究團隊看來,圖結(jié)構(gòu)是一種更通用的數(shù)據(jù)結(jié)構(gòu)。甚至網(wǎng)格和序列可以當作圖結(jié)構(gòu)的特例,用圖結(jié)構(gòu)來做視覺感知會更加靈活。圖數(shù)據(jù)由節(jié)點和邊組成,如果把每個像素都看作節(jié)點計算難度過于大了,因此研究團隊采用了切塊(patch)方法。
對于224x224分辨率的圖像,每16x16像素為一個Patch,也就是圖數(shù)據(jù)中的一個節(jié)點,總共有196個節(jié)點。對每個節(jié)點搜索他們距離最近的節(jié)點構(gòu)成邊,邊的數(shù)量隨網(wǎng)絡(luò)深度而增加。接下來,網(wǎng)絡(luò)架構(gòu)分為兩部分:一個圖卷積網(wǎng)絡(luò)(GCN),負責(zé)處理圖數(shù)據(jù)、聚合相鄰節(jié)點中的特征。一個前饋神經(jīng)網(wǎng)絡(luò)(FFN),結(jié)構(gòu)比較簡單是兩個全連接層的MLP,負責(zé)特征的轉(zhuǎn)換。

傳統(tǒng)GCN會出現(xiàn)過度平滑現(xiàn)象,為解決這個問題,團隊在圖卷積層前后各增加一個線性層,圖卷積層后再增加一個激活函數(shù)。

實驗表明,用上新方法,當層數(shù)較多時ViG學(xué)習(xí)到的特征會比傳統(tǒng)ResGCN更為多樣。
為了更準確評估ViG的性能,研究團隊設(shè)計了ViT常用的同質(zhì)結(jié)構(gòu)(isotropic)和CNN常用的金字塔結(jié)構(gòu)(Pyramid)兩種ViG網(wǎng)絡(luò),來分別做對比實驗。同質(zhì)架構(gòu)ViG分為下面三種規(guī)格。

與常見的同質(zhì)結(jié)構(gòu)CNN、ViT與MLP網(wǎng)絡(luò)相比,ViG在同等算力成本下ImageNet圖像分類的表現(xiàn)更好。金字塔結(jié)構(gòu)的ViG網(wǎng)絡(luò)具體設(shè)置如下。

同等算力成本下,ViG也與最先進的CNN、ViT和MLP相比,性能也能超越或表現(xiàn)相當。

在目標檢測和實例分割測試上,ViG表現(xiàn)也與同等規(guī)模的Swin Transformer相當。

最后,研究團隊希望這項工作能作為GNN在通用視覺任務(wù)上的基礎(chǔ)架構(gòu),Pytorch版本和Mindspore版本代碼都會分別開源。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4838瀏覽量
107756 -
cnn
+關(guān)注
關(guān)注
3文章
355瀏覽量
23417 -
圖卷積網(wǎng)絡(luò)
+關(guān)注
關(guān)注
0文章
8瀏覽量
1650
原文標題:?圖神經(jīng)網(wǎng)絡(luò)(GNN)直接處理圖像數(shù)據(jù)
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
圖神經(jīng)網(wǎng)絡(luò)概述第三彈:來自IEEE Fellow的GNN綜述
神經(jīng)網(wǎng)絡(luò)教程(李亞非)
【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)
GNN(圖神經(jīng)網(wǎng)絡(luò))硬件加速的FPGA實戰(zhàn)解決方案
如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?
基于BP神經(jīng)網(wǎng)絡(luò)的PID控制
如何使用stm32cube.ai部署神經(jīng)網(wǎng)絡(luò)?
卷積神經(jīng)網(wǎng)絡(luò)一維卷積的處理過程
神經(jīng)網(wǎng)絡(luò)移植到STM32的方法
卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用
圖神經(jīng)網(wǎng)絡(luò)GNN的卷積操作流程
圖形神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識兩種較高級的算法
圖神經(jīng)網(wǎng)絡(luò)逆勢而上,7日學(xué)懂入門圖
GNN解釋技術(shù)的總結(jié)和分析與圖神經(jīng)網(wǎng)絡(luò)的解釋性綜述
如何用圖神經(jīng)網(wǎng)絡(luò)(GNN)做CV的研究
評論