国产v亚洲v天堂无码久久无码_久久久久综合精品福利啪啪_美女扒开尿口让男人桶_国产福利第一视频在线播放_滨崎步无码AⅤ一区二区三区_三年片免费观看了_大屁股妇女流出白浆_泷川苏菲亚无码AV_我想看我想看一级男同乱伦_国产精品午夜福利免费视频,gogo国模全球大胆高清摄影图,2008门艳照全集视频,欧美午夜在线精品品亚洲AV中文无码乱人伦在线播放

IEEE TIP | SelfGCN:用于基于骨架的動作識別的自注意力圖卷積網絡

Snipaste_2024-11-26_11-31-24

該論文發(fā)表于 IEEE Transactions on Image Processing 2024(CCF A類),,題目為《SelfGCN: Graph Convolution Network with Self-Attention for Skeleton-Based Action Recognition》,。

合肥大學的吳志澤副教授為論文的第一作者,合肥大學的湯衛(wèi)思教授為本文通訊作者,。

論文鏈接:

https://ieeexplore.ieee.org/document/10618962

論文概要

當前傳統(tǒng)的圖卷積網絡(GCNS)在基于骨架的動作識別領域取得了顯著的成果,,但它們主要關注局部節(jié)點依賴關系,難以捕捉長距離的節(jié)點關系,。此外,,目前的現(xiàn)有方法通常對所有幀使用相同的骨架拓撲,限制了對時空特征的建模能力。

為了解決這些問題,,本文提出了一種新的圖卷積神經網絡SelfGCN,,主要通過兩個核心模塊克服上述局限性。圖卷積與自注意力混合特征模塊(MFSG),,并行引入圖卷積和自注意力機制,,分別負責捕獲局部和全局的節(jié)點依賴,通過雙向交互機制,,在通道維度和空間維度進行特征互補,。時間特定空間自注意力模塊(TSSA),基于自注意力機制建模骨架序列中每一幀節(jié)點的空間關系,,提取每一幀的獨特空間特征,,彌補統(tǒng)一拓撲結構的不足。SelfGCN在NTU RGB+D,,NTU RGB+D120和 Northwestern-UCLA三個主流數(shù)據(jù)集上均達到或超過了現(xiàn)有最新方法的精度,。

研究背景

人類動作識別作為計算機視覺領域的一個重要任務,基于骨架的動作識別逐漸成為一種非常有效的解決方法,,相較于傳統(tǒng)的RGB視頻數(shù)據(jù),,骨架數(shù)據(jù)減少了環(huán)境因素的干擾,同時能夠更加高效地表示人體運動的結構化變化,。

近年來圖卷積網絡(GCN)在骨架動作識別領域取得了顯著進展,,相較于循環(huán)神經網絡(RNN)或卷積神經網絡(CNN),圖卷積網絡可以更加充分地利用關節(jié)之間的連接信息,。但是現(xiàn)有的GCN方法通常使用預定義的骨架拓撲,,無法有效處理跨越長距離的節(jié)點關系,同時現(xiàn)有方法大多采用統(tǒng)一的拓撲結構對所有時間幀進行建模,。因此,,如何克服上述問題成為了待解決的研究需求。

研究方法

本文提出了一種新的圖卷積網絡架構SelfGCN,,它結合了圖卷積和自注意力機制,,旨在解決現(xiàn)有基于GCN的骨架識別方法中的一些問題,主要包含混合特征,、時間特定空間自注意力,、多尺度時間卷積三個模塊,三個模塊相互串聯(lián),、互補協(xié)作,共同優(yōu)化骨架序列的時空特征表示,,提升動作識別的準確性,。

Snipaste_2024-11-27_22-03-25

圖1 SelfGCN網絡的整體架構 (a) SelfGCN網絡的流程 (b) SelfGC 塊的組成與結構 (c) 圖卷積與自注意力混合特征(MFSG)模塊 (d) 時間特定空間自注意力(TSSA)模塊 (e) 多尺度時間卷積(MS-TC)模塊的結構

(1)圖卷積與自注意力混合特征模塊(MFSG)

圖卷積模塊:SelfGCN采用類似于CTR-GCN的方法,同時學習共享拓撲和通道特定的相關性。通過相關性建模函數(shù)

M(⋅)

來模擬兩個頂點之間的拓撲關系,,可以表示為:

Snipaste_2024-11-27_22-30-13

其中 σ(⋅) 表示激活函數(shù),,P(⋅) 是平均池化操作,P(ψ(xi)) 和 P(ω(xj)) 分別表示經過線性變換和池化操作后的兩個節(jié)點的特征,。之后再使用線性變化 ?(⋅) 增加通道維度,,獲取通道特定的相關性 CA

Snipaste_2024-11-27_22-49-04

CAij 反映了頂點 vi 和 vj 之間的通道特定拓撲關系。將通道的特定相關性 CA 與領接矩陣形式的共享拓撲 A 相結合,,得到特定通道的拓撲關系 R :

Snipaste_2024-11-27_22-53-28

其中 α 是一個可訓練的標量參數(shù),,用于調整通道拓撲的改進強度。最后通過得到的通道特定拓撲R和高級特征X′,,以通道方式對空間特征進行提?。?/p>

Snipaste_2024-11-27_22-56-16

其中,ρ(⋅) 是用于將輸入特征轉換為高級特征的線性變換函數(shù),,AG 是聚合函數(shù),,Ri 是通道的拓撲結構,X':,:,i 是通道的變換輸入特征,,? 表示連接操作,。通過這種方式,SelfGCN 可以有效地從不同通道聚合關節(jié)特征,,同時捕捉局部和全局的空間特征,。

自注意力模塊:為了彌補圖卷積在建模長距離的關節(jié)關系上的缺陷,引入具有全局感受野的自注意力機制用于捕獲關節(jié)間的全局依賴關系,,補充圖卷積處理的局部關系,。本文使用圖卷積模塊經過線性變化的特征作為 query 和 key ,分別表示為 X1=ψ(X) 和 X2=ω(X) ,。

同時為了與CTR-GCN的通道拓撲結構保持一致,,本文為每個通道獨立地使用自注意力機制來建模通道內關節(jié)的全局關系。對于第 i 個通道,,自注意力權重 SAi 通過以下公式計算:

Snipaste_2024-11-27_23-13-14

其中 SAi 表示第 i 個通道內關節(jié)間的全局關系,,Xj:,:,i 表示變換后的輸入特征的第 i 個通道特征,T 是時間幀的數(shù)量,。最后將關系矩陣 SAi 與相應通道的輸入特征相乘,,即可以得到每個通道的全局空間特征。通過自注意力模塊,,SelfGCN能夠有效地捕捉關節(jié)間的全局依賴關系,。

混合特征模塊:混合特征模塊將圖卷積和自注意力并行結合,以擴展空間感受野,,這種設計允許同時對輸入特征進行圖卷積和自注意力建模,,增強了模型對空間特征的捕捉能力,。在圖卷積分支和自注意力分支之間實現(xiàn)了雙向交互,以實現(xiàn)通道和空間維度之間的信息互補,。

使用自注意力模塊的空間建模結果進行通道注意力計算,,包括平均池化、兩個連續(xù)的 1x1 卷積,,以及后續(xù)的 GELU 激活函數(shù),,最后通過 sigmoid 函數(shù)生成通道注意力結果 Cf

Snipaste_2024-11-27_23-47-20

將通道注意力結果應用于通道特定的拓撲關系 R,使用 Rf 和變換后的輸入特征 X′ 聚合每個通道的特征,,并將它們連接起來作為圖卷積模塊的輸出 OutG ,。對圖卷積模塊的建模結果應用空間注意力,包括池化操作,、 1x1 卷積和 sigmoid 函數(shù),,再將空間注意力應用于自注意力模塊得到建模結果 OutS :

Snipaste_2024-11-27_23-53-09

Snipaste_2024-11-27_23-53-24

最后,將兩個模塊的建模結果 OutG 和 OutS 相加,,即可以得到MFSG模塊的輸出,。

(2)時間特定空間自注意力模塊(TSSA)

TSSA模塊旨在解決傳統(tǒng)的圖卷積網絡在處理骨架特征序列時,對所有幀使用相同的拓撲結構,,忽略了每幀內時序特定的空間關系,。TSSA模塊通過捕捉每幀內關節(jié)之間的獨特空間關系,而不是對所有幀使用統(tǒng)一的拓撲結構,。

首先對輸入的骨架特征 X 通過兩個線性變化 ?(⋅) 和 φ(⋅) 將其轉換為高級特征:

Snipaste_2024-11-28_00-03-14

其中 Xa 和 Xb 分別表示經過兩個不同線性變化后的特征,,W1 和 W2 則是權重矩陣。然后再通過點積計算單幀內每個節(jié)點之間的相關性,,得到一個關系矩陣 TA ,,計算公式如下:

Snipaste_2024-11-28_00-06-21

最后在每個通道中計算輸入矩陣和關系矩陣之間的點積,再沿著時間維度 T 連接每幀的空間建模結果,,最后可以獲得最終的時間特定空間建模結果 ZT

Snipaste_2024-11-28_00-09-17

(3)SelfGCN網絡構建

SelfGCN網絡通過結合MFSG模塊和TSSA模塊以及MS-TC模塊,,形成了具有自注意力的圖卷積網絡塊(SelfGC block)。這種網絡塊被堆疊L層,,以構建基于骨架的人體動作識別網絡,。TSSA模塊的輸出特征乘以一個可學習的系數(shù) β ,其中 β 用于調整時序特定空間特征的重要性,,然后加到MFSG模塊的輸出特征上:

Snipaste_2024-11-28_00-11-47

經過L層的空間和時序建模后,,最終的輸出特征通過全局平均池化層和全連接層,以獲得動作分類的分數(shù),。

研究結果

作者主要將SelfGCN在NTU RGB+D,、NTU RGB+D120和Northwestern-UCLA三個主流的基準數(shù)據(jù)集上進行了評估。如表1,、表2,、表3所示,,在NTU RGB+D數(shù)據(jù)集的X-Sub標準上達到了93.1%的Top-1準確率,是目前最好的結果,。在NTU RGB+D120數(shù)據(jù)集的X-Sub標準上與PSUMNet和InfoGCN(4s)并列第一,而在X-Set標準上,,SelfGCN以91%的Top-1準確率單獨排名第一,。在Northwestern-UCLA數(shù)據(jù)集上,SelfGCN達到了96.8%的Top-1準確率,,超過了排名第二的InfoGCN(96.6%),。

Snipaste_2024-11-28_00-20-59

Snipaste_2024-11-28_00-21-07

Snipaste_2024-11-28_00-21-18

此外,通過圖2中展示的在基線模型中加入TSSA模塊和MFSG模塊之后混淆矩陣的變化,,也可以直觀地看到TSSA和MFSG模塊對模型性能的影響,,在減少特定類型錯誤和提高特定動作識別準確度方面提升較為明顯。

Snipaste_2024-11-28_00-25-35

圖2 混淆矩陣對比 (a) 基線模型 (b) 加入TSSA模塊后的模型 (c) 使用MFSG模塊作為空間建模方法的模型

結論

本文提出了SelfGCN,,一種結合圖卷積和自注意力機制的骨架動作識別模型,。通過引入混合特征模塊(MFSG)和時間特定空間自注意力模塊(TSSA),SelfGCN 能同時建模局部和全局依賴,,并通過多尺度時間卷積(MS-TC)增強時序特征學習,。實驗結果表明,SelfGCN 在多個骨架數(shù)據(jù)集上優(yōu)于現(xiàn)有方法,,展示了其強大的性能和可擴展性,。該模型為骨架動作識別領域提供了新的思路,并推動了圖卷積與自注意力機制的結合應用,。

 

撰稿人:徐煜濤

審稿人:周成菊


登錄用戶可以查看和發(fā)表評論,, 請前往  登錄 或  注冊
SCHOLAT.com 學者網
免責聲明 | 關于我們 | 用戶反饋
聯(lián)系我們: