要約
動的ハンドジェスチャー認識は、コンピュータビジョンにおいて重要かつ挑戦的なタスクである。このタスクの鍵は、異なるジェスチャーの変化を正確にモデル化するための、判別力のある空間的・時系列的特徴を効果的に抽出することにある。本稿では、骨格情報に基づく動的ハンドジェスチャー認識を目的として、エンドツーエンド型の空間時系列注意付き残差時系列畳み込みネットワーク(STA-Res-TCN)を提案する。このネットワークは、各時刻における畳み込みフィルタによって抽出された空間時系列特徴に対して、異なるレベルの注目機構(アテンション)を学習し、適切に割り当てる。提案するアテンションブランチにより、ネットワークは情報量の多い時系列フレームや特徴に適応的に注目し、不要なノイズを引き起こす関係の薄い要素を排除することが可能となる。さらに、本提案モデルは軽量構造を採用しており、極めて短時間で学習および評価が可能である。DHG-14/28データセットおよびSHREC’17トラックデータセットにおける実験結果から、STA-Res-TCNは14ジェスチャー設定およびより複雑な28ジェスチャー設定の両方において、既存の最先端手法を上回る性能を示した。