
要約
ビデオに基づく人間の動作認識は現在、コンピュータビジョンにおける最も活発な研究分野の一つとなっています。様々な研究によると、動作認識の性能は抽出される特徴量の種類と動作がどのように表現されるかに大きく依存していることが示されています。Kinectカメラの発売以来、文献には多くのKinectを用いた人間の動作認識技術が提案されています。しかし、これらのKinectベースの技術について、ハンドクラフトされた特徴量と深層学習特徴量、深度情報に基づく特徴量と骨格情報に基づく特徴量などの特徴量タイプごとの徹底的な比較はまだ存在していません。本論文では、6つのベンチマークデータセットを使用して、最近提案された10つのKinectベースのアルゴリズムについてクロスサブジェクト動作認識とクロスビュー動作認識において分析および比較を行いました。さらに、これらの技術の中からいくつかを選んで実装し改善を行い、そのバリエーションも比較に含めています。実験結果から、大部分の方法がクロスサブジェクト動作認識でクロスビュー動作認識よりも優れた性能を示しており、骨格情報に基づく特徴量が深度情報に基づく特徴量よりもクロスビュー認識に対して堅牢であることが明らかになりました。また、深層学習特徴量は大規模なデータセットに適していることも確認されました。