Command Palette
Search for a command to run...
骨格ベースの行動認識におけるマルチストリーム適応型グラフ畳み込みネットワーク
骨格ベースの行動認識におけるマルチストリーム適応型グラフ畳み込みネットワーク
Lei Shi Yifan Zhang Jian Cheng Hanqing Lu
概要
グラフ畳み込みネットワーク(GCN)は、より一般的な非ユークリッド構造にCNNを拡張する手法として、骨格ベースの行動認識において顕著な性能を達成している。しかし、従来のGCNに基づくモデルにはいくつかの課題が残っている。第一に、グラフのトポロジーはヒューリスティックに設定され、モデルのすべての層および入力データに対して固定されている。これは、GCNモデルの階層構造や行動認識タスクにおけるデータの多様性に適していない可能性がある。第二に、骨格データの2次情報、すなわち骨の長さや方向性は、人間の行動認識において自然に情報量が多く、識別性が高いにもかかわらず、ほとんど検討されていない。本研究では、骨格ベースの行動認識を目的として、新たなマルチストリーム・アテンション強化型の適応的グラフ畳み込みニューラルネットワーク(MS-AAGCN)を提案する。本モデルでは、グラフトポロジーが入力データに基づき、エンド・ツー・エンドの枠組みで一様にまたは個別に学習可能である。このデータ駆動型アプローチにより、グラフ構築の柔軟性が向上し、さまざまなデータサンプルに適応する汎用性が高まる。さらに、空間的・時間的・チャネル的アテンションモジュールを導入した適応的グラフ畳み込み層により、重要な関節、フレーム、特徴量に注目する能力が強化されている。また、マルチストリームフレームワークを用いて、関節情報と骨の情報、さらにはそれらの運動情報が同時にモデル化され、認識精度の顕著な向上が実現された。NTU-RGBDおよびKinetics-Skeletonの2つの大規模データセットにおける広範な実験により、本モデルの性能が最先端技術を大きく上回ることが実証された。