11日前
Dynamic GCN:骨格に基づく行動認識のためのコンテキスト豊富なトポロジー学習
Fanfan Ye, Shiliang Pu, Qiaoyong Zhong, Chao Li, Di Xie, Huiming Tang

要約
骨格ベースの行動認識タスクにおいて、グラフ畳み込みネットワーク(GCN)は注目を集めている。その鍵となるのは、骨格のトポロジー情報を符号化するグラフ構造の設計である。本論文では、新しい畳み込みニューラルネットワークとして「コンテキスト符号化ネットワーク(CeN)」を導入し、骨格のトポロジーを自動的に学習する「ダイナミックGCN」を提案する。特に、2つの関節間の依存関係を学習する際、他のすべての関節から得られるコンテキスト特徴をグローバルに統合する。CeNは非常に軽量でありながら効果的であり、グラフ畳み込み層に組み込むことができる。複数のCeNを搭載したグラフ畳み込み層を積層することで、ダイナミックGCNを構築した。特に、CeNの利点として、異なる入力サンプルや異なる深さのグラフ畳み込み層に対して、動的に変化するグラフトポロジーを構築できることが挙げられる。さらに、3種類の代替的なコンテキストモデリングアーキテクチャを体系的に検討し、今後のグラフトポロジー学習に関する研究の指針として貢献する。CeNはベースラインモデルに対して約7%の追加FLOPsしか増加させず、ダイナミックGCNは従来の手法と比較して2倍から4倍のFLOPs削減で優れた性能を達成した。さらに、静的な身体的接続と運動モダリティを統合することで、NTU-RGB+D、NTU-RGB+D 120、Skeleton-Kineticsの3つの大規模ベンチマークにおいて、最先端の性能を達成した。