17日前

RPAN:動画における行動認識のためのエンドツーエンド型再帰的ポーズアテンションネットワーク

{Yu Qiao, Yali Wang, Wenbin Du}
要約

近年の研究では、動画における動作認識において再帰型ニューラルネットワーク(RNN)の有効性が示されている。しかし、従来の手法は主に動画レベルのカテゴリラベルを教師信号としてRNNを学習させるにとどまっており、時間的に複雑な運動構造をRNNが学習するのを妨げる可能性がある。本論文では、この課題に対処するため、再帰型ポーズアテンションネットワーク(RPAN)を提案する。本手法では、RNNの各時刻における動作予測において、ポーズに関連する特徴を適応的に学習できる新たなポーズアテンション機構を導入している。より具体的には、本論文で以下の3つの主な貢献を行う。第一に、従来のポーズ関連動作認識手法とは異なり、本RPANはエンドツーエンドの再帰型ネットワークであり、人間のポーズの空間的・時系列的変化を統一的な枠組み内で活用することで、動作認識を支援することができる。第二に、個々の人体関節特徴を別々に学習するのではなく、意味的に関連する人体関節上で部分的にアテンションパラメータを共有することで、堅牢な人体部位特徴を学習する。得られた人体部位特徴は、人体部位プーリング層に供給され、時間的動作モデリングに適した高判別力なポーズ関連表現を構築する。第三に、本RPANの重要な副産物として、動画内のポーズ推定が可能となり、動作動画における粗いポーズラベル付けに利用できる。提案手法の有効性を、代表的な2つのベンチマーク、Sub-JHMDBおよびPennAction上で定量的・定性的に評価した。実験結果から、RPANはこれらの困難なデータセットにおいて、最近の最先端手法を上回る性能を示した。