亚洲在线观看一97超碰在,久久久日本无码一道av

ST-GCN: Spatial Temporal Graph Convolutional Networks時(shí)空?qǐng)D卷積網(wǎng)絡(luò)，這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)源于2018年發(fā)表的一篇文章《Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition》，也就是基于時(shí)空?qǐng)D卷積網(wǎng)絡(luò)來(lái)做人體動(dòng)作識(shí)別。今天，我們就來(lái)了解下，如何基于ST-GCN來(lái)實(shí)現(xiàn)人體動(dòng)作的識(shí)別與生成。

Why：為什么要使用ST-GCN？

ST-GCN網(wǎng)絡(luò)訓(xùn)練好之后要達(dá)到的效果就是：用戶提供一段視頻，網(wǎng)絡(luò)會(huì)輸出視頻中人的動(dòng)作分類。

類似于上圖中的視頻，如何來(lái)識(shí)別視頻中的人在做什么動(dòng)作呢? 視頻其實(shí)就是一幀一幀的圖片拼接而成的，而傳統(tǒng)處理圖像識(shí)別的網(wǎng)絡(luò)最常用的就是CNN（卷積神經(jīng)網(wǎng)絡(luò)），那ST-GCN是否跟CNN有關(guān)系呢？為什么要使用這個(gè)網(wǎng)絡(luò)呢？

可以從以下三點(diǎn)來(lái)理解：

(1) 輸入數(shù)據(jù)有量級(jí)的差別。舉個(gè)例子，數(shù)據(jù)為一段10秒左右的視頻，大概300幀，像素1920*1080，分別輸入兩個(gè)網(wǎng)絡(luò)中。傳統(tǒng)CNN是將所有視頻拆分為一幀一幀的圖片輸入網(wǎng)絡(luò)，而ST-GCN則直接輸入人體的骨架關(guān)節(jié)數(shù)據(jù)，CNN的輸入數(shù)據(jù)量約為ST-GCN的83000倍。

(2) 輸入數(shù)據(jù)純凈度高，噪聲少。CNN是將視頻數(shù)據(jù)直接輸入網(wǎng)絡(luò)，包括了視頻的背景以及圖片中的各種噪音，而ST-GCN是僅僅將人體骨架關(guān)節(jié)點(diǎn)的信息輸入網(wǎng)絡(luò)，只保留了主要的有效信息，噪聲低。

(3) 考慮了空間和時(shí)間上的相鄰關(guān)節(jié)，效果更好。ST-GCN不僅考慮了空間上的相鄰節(jié)點(diǎn)，也考慮了時(shí)間上的相鄰節(jié)點(diǎn)，將鄰域的概念擴(kuò)展到了時(shí)間上，實(shí)驗(yàn)效果表明精度也更高。

What：ST-GCN到底是什么？

ST-GCN是TCN與GCN的結(jié)合。TCN，對(duì)時(shí)間維度的數(shù)據(jù)進(jìn)行卷積操作；GCN，則對(duì)空間維度的數(shù)據(jù)進(jìn)行卷積操作。GCN屬于GNN，而GNN的基礎(chǔ)是圖論。神經(jīng)網(wǎng)絡(luò)處理的傳統(tǒng)數(shù)據(jù)都是歐式距離結(jié)構(gòu)的數(shù)據(jù)，比如二維的圖像、一維的聲音等等。而對(duì)于非歐式距離結(jié)構(gòu)的數(shù)據(jù)，比如社交網(wǎng)絡(luò)、交通運(yùn)輸網(wǎng)等等，傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)無(wú)法直接處理，而GNN就是用來(lái)處理這類型數(shù)據(jù)的。所以要了解ST-GCN，就要先從圖論的一些基本理論入手，然后再延伸到GNN、GCN、ST-GCN。

2.1 圖論

這里的圖并不是指我們?nèi)粘Ｋ?jiàn)的圖片，圖的廣泛概念包含具體的事物，以及事物之間的聯(lián)系。圖論中的圖由兩部分構(gòu)成，即點(diǎn)和邊。

點(diǎn)：圖上具體的節(jié)點(diǎn)。

邊：連接圖上點(diǎn)和點(diǎn)之間的東西，邊分為有向邊和無(wú)向邊。

圖：節(jié)點(diǎn)V(G)和邊E(G)構(gòu)成的集合就是圖，可以表示為：G = {V(G), E(G)}。圖可以簡(jiǎn)單分為有向圖和無(wú)向圖（如下圖所示）。

2.2 GNN

GNN: Group Neural Network 圖神經(jīng)網(wǎng)絡(luò)，即結(jié)合圖論與深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)。目前主要包含：Graph Convolutional Networks (GCN)、Graph Attention Networks、Graph Auto-encoder、Graph Generative Networks、Graph Spatial-Temporal Networks。最初的GNN網(wǎng)絡(luò)，就是將點(diǎn)和邊的特征一起傳入網(wǎng)絡(luò)中學(xué)習(xí)。

2.3 GCN

GCN：Graph Convolutional Networks 圖卷積神經(jīng)網(wǎng)絡(luò)，顧名思義，是將圖與卷積結(jié)合起來(lái)。根據(jù)卷積核的不同，主要分為spectral method（頻譜方法）和spatial method（空間方法）。二者的區(qū)別在于：頻譜方法基于拉普拉斯矩陣，與圖的關(guān)系緊密聯(lián)系，可泛化能力弱；空間方法則直接在圖上定義卷積，對(duì)有緊密關(guān)系的節(jié)點(diǎn)進(jìn)行操作，分為點(diǎn)分類和圖分類。ST-GCN中的GCN屬于圖分類，且采用的是空間方法。

2.4 ST-GCN

ST-GCN：Spatial Temporal Graph Convolutional Networks時(shí)空?qǐng)D卷積網(wǎng)絡(luò)，是在GCN的基礎(chǔ)上提出的。核心觀點(diǎn)是將TCN與GCN相結(jié)合，用來(lái)處理有時(shí)序關(guān)系的圖結(jié)構(gòu)數(shù)據(jù)。網(wǎng)絡(luò)分為2個(gè)部分：GCN_Net與TCN_Net。

GCN_Net對(duì)輸入數(shù)據(jù)進(jìn)行空間卷積，即不考慮時(shí)間的因素，卷積作用于同一時(shí)序的不同點(diǎn)的數(shù)據(jù)。TCN_Net對(duì)數(shù)據(jù)進(jìn)行時(shí)序卷積，考慮不同時(shí)序同一特征點(diǎn)的關(guān)系，卷積作用于不同時(shí)序同一點(diǎn)的數(shù)據(jù)。

How：ST-GCN具體如何使用？

前部分講了ST-GCN是什么，那我們回歸到ST-GCN的具體應(yīng)用上，首次提出ST-GCN是用來(lái)做人體動(dòng)作識(shí)別，即通過(guò)一段視頻來(lái)判斷其中人的動(dòng)作，也就是人體動(dòng)作識(shí)別。

數(shù)據(jù)集：論文中使用的數(shù)據(jù)集為NTU-RGB+D，包含60種動(dòng)作，共56880個(gè)樣本，其中有40類為日常行為動(dòng)作，9類為與健康相關(guān)的動(dòng)作，11類為雙人相互動(dòng)作。數(shù)據(jù)集已經(jīng)將視頻中的人體動(dòng)作轉(zhuǎn)換為了骨架關(guān)節(jié)的數(shù)據(jù)，其中人體的骨架標(biāo)注了25個(gè)節(jié)點(diǎn)，就是一種圖結(jié)構(gòu)的數(shù)據(jù)。

NTU-RGB+D數(shù)據(jù)集的分類

亮點(diǎn)：

(1) 鄰接矩陣不采用傳統(tǒng)的方式，采用一種新的方式，將鄰接矩陣分為3個(gè)子集：根節(jié)點(diǎn)本身、向心力群，離心群。這一策略的靈感來(lái)自于身體部位的運(yùn)動(dòng)可以被廣泛地歸類為同心運(yùn)動(dòng)和偏心運(yùn)動(dòng)，通常距離重心越近，運(yùn)動(dòng)幅度越小，同時(shí)能更好地區(qū)分向心運(yùn)動(dòng)和離心運(yùn)動(dòng)。即下圖中的（d）。

(2) 網(wǎng)絡(luò)中加入可學(xué)習(xí)的邊的權(quán)重，即加入attention機(jī)制。每層網(wǎng)絡(luò)中鄰接矩陣A都與可學(xué)習(xí)的權(quán)重相乘，這些權(quán)重在反向傳播中更新。添加的原因是考慮到人體做不同的動(dòng)作所側(cè)重的關(guān)節(jié)點(diǎn)不同，而且添加了注意力機(jī)制更有利于提高網(wǎng)絡(luò)的泛化能力。

整體效果：

使用ST-GCN的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行人體動(dòng)作識(shí)別，論文中在NTU-RGB+D數(shù)據(jù)集的x_sub模式下識(shí)別精度達(dá)到81.5%，NTU-RGB+D數(shù)據(jù)集的x-view模式下識(shí)別精度達(dá)到88.3%，優(yōu)于傳統(tǒng)的人體動(dòng)作識(shí)別網(wǎng)絡(luò)。

團(tuán)隊(duì)工作亮點(diǎn)

ST-GCN的技術(shù)延展-動(dòng)作生成

基于對(duì)ST-GCN在人體動(dòng)作識(shí)別上的效果，我們將ST-GCN網(wǎng)絡(luò)與VAE網(wǎng)絡(luò)結(jié)合。目的在于獲取人體動(dòng)作的語(yǔ)義，進(jìn)而生成人體的動(dòng)作，最終可以應(yīng)用于機(jī)器人動(dòng)作模仿或者其他強(qiáng)化學(xué)習(xí)項(xiàng)目中。

目前項(xiàng)目已在進(jìn)行中，下圖展示的是真實(shí)的人體骨架節(jié)點(diǎn)3D圖與網(wǎng)絡(luò)生成的人體骨架節(jié)點(diǎn)3D圖。具體的研究結(jié)果，之后再跟大家分享，敬請(qǐng)期待。

責(zé)任編輯：lq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4838

瀏覽量
107779
圖像識(shí)別

圖像識(shí)別

+關(guān)注

關(guān)注
9

文章
533

瀏覽量
40059
網(wǎng)絡(luò)結(jié)構(gòu)

網(wǎng)絡(luò)結(jié)構(gòu)

+關(guān)注

關(guān)注
0

文章
48

瀏覽量
12379