要約
スケルトンデータ(例:Kinectなどから抽出可能な動画データ、または深度カメラによって提供されるデータ)に基づく人間行動認識(HAR)は、空間的および時間的依存関係を適切に扱うことが重要な課題となる時系列分類問題である。オンラインでの人間行動認識において、行動の開始時刻および終了時刻を特定することは重要な要素であるが、連続するデータストリームにおいてはこれを行うことが困難である場合がある。本研究では、スケルトン関節間の空間的および時間的依存関係を保持した画像を生成するための3Dスケルトンデータ符号化手法を提案する。この符号化手法を、連続データストリームに対してスライディングウィンドウを適用することで組み合わせることにより、開始時刻や終了時刻の明示的なタイムスタンプを必要とせずに、任意のタイミングで行動認識を実現可能となる。本手法では、深層学習に基づくCNNアルゴリズムを用いて、リアルタイムでの行動検出を実現している。