
要約
グラフ畳み込みネットワーク(GCN)は、骨格ベースの行動認識において広く利用されている。既存のGCNベースの手法は、主に事前に定義されたグラフィカル構造(すなわち、骨格関節の手動で設定されたトポロジー)に依存していることが明らかであるが、これにより関節間の複雑な相関関係を捉える柔軟性が制限されている。この制約を克服するために、本研究では骨格ベースの行動認識のための新しいフレームワーク、すなわち「動的グループ時空間GCN(DG-STGCN)」を提案する。本フレームワークは、空間的モデリングと時系列的モデリングのそれぞれを担う2つのモジュール、DG-GCNおよびDG-TCNから構成される。特に、DG-GCNは事前に定義されたグラフィカル構造に依存するのではなく、学習によって得られた類似度行列(affinity matrix)を用いて動的なグラフィカル構造を捉える。一方、DG-TCNは可変な受容野を持つグループワイドな時系列畳み込みを実行し、適応的な多段階時系列モデリングを可能にするための動的関節-骨格統合モジュールを組み込んでいる。NTURGB+D、Kinetics-Skeleton、BABEL、Toyota SmartHomeといった広範なベンチマークにおいて、DG-STGCNは常に最先端の手法を上回り、しばしば顕著な性能差を示した。