18日前

複数の特徴を統合した深度に基づくアクション認識

{Wenbin Chen, Guodong Guo, Yu Zhu}
要約

人間の行動認識は、コンピュータビジョンおよびパターン認識分野において非常に活発な研究テーマである。近年、新興のRGB-Dセンサによって取得された三次元(3D)深度データを活用した行動認識において、大きな可能性が示されている。深度データに基づく行動認識のため、多数の特徴量および/またはアルゴリズムが提案されてきた。しかし、次の問いが提起される:異なる補完的な特徴量を特定し、それらを統合することで、深度ベースの行動認識の精度を著しく向上させることは可能だろうか?この問いに答えるとともに、問題の本質をより深く理解するために、本研究では深度動画における行動認識に向けたさまざまな特徴量の融合を検討する。データ統合は他の分野では大きな成功を収めているが、3D行動認識分野における統合手法の研究はまだ十分に進んでいない。例えば、統合が深度ベースの行動認識に有効かどうか、またどのように適切に統合を行うべきかといった課題が残っている。本稿では、深度動画における行動特徴表現に用いる多様な特徴量を用いて、異なる統合スキームを包括的に検討する。統合のレベルとして、特徴量レベルと決定レベルの2種類を対象とし、それぞれのレベルでさまざまな手法を検証した。また、行動パターンを異なる視点から捉えるために、4種類の異なる特徴量を検討した。さらに、4つの挑戦的な深度行動データベースを用いた実験を通じて、一般的な最適な統合手法の評価と同定を試みた。実験結果から、本稿で検討された4種類の特徴量は互いに補完的であり、適切な統合手法を採用することで、個々の特徴量単独の場合よりも顕著に認識精度が向上することが明らかになった。特に重要なのは、本研究で提案する統合ベースの行動認識手法が、これらの挑戦的なデータベースにおいて、既存の最先端手法を上回ることである。