
要約
人間の行動を認識することは、人間と同じ空間を直接共有する自律システムにとって重要な課題である。これらのシステムは、人間の行動をリアルタイムで認識し評価する能力が必要である。対応するデータ駆動型アルゴリズムを訓練するために、大量のアノテーション付き訓練データが必要となる。本研究では、標準的な単眼カメラセンサを使用して、人間を検出し、その姿勢を推定し、時間経過とともに追跡し、さらにリアルタイムで行動を認識するパイプラインを開発した。行動認識のために、人間の姿勢を新しいデータ形式であるエンコードされたヒューマンポーズイメージ(Encoded Human Pose Image: EHPI)に変換し、これによりコンピュータビジョン分野の標準的な手法を使用して分類が可能となった。この単純な手順により、姿勢に基づく行動検出において競争力のある最先端の性能を達成し、リアルタイム性能も確保できる。さらに、自動運転の文脈での使用例を示し、シミュレーションデータを使用してこのようなシステムが人間の行動を認識するためにどのように訓練されるかを説明している。