
要約
本稿では、単一の非同期イベントストリームを入力として用いる新しい3次元人体ポーズ推定手法を提案する。現在の最先端手法の多くはRGBカメラを用いてこの課題を解決しているが、被験者が高速で移動する場合に困難に直面する。一方、イベントベースの3次元ポーズ推定は、イベントカメラの利点、特に効率性および外観変化に対するロバスト性を活かすことができる。しかし、非同期イベントから人体ポーズを検出することは、通常のRGBポーズ推定に比べてより困難である。これは、静止シーンではイベントがほとんどまたはまったく発生しないためである。本研究では、単一のイベントストリームから3次元人体ポーズを推定する初めての学習ベースの手法を提案する。本手法は2段階から構成される。第一段階では、イベントカメラのストリームを処理し、各関節に対して3つの直交したヒートマップを予測する。各ヒートマップは、関節が1つの直交平面に射影されたものである。第二段階では、これらのヒートマップ群を統合し、体関節の3次元位置を推定する。さらなる貢献として、RGB Human3.6mデータセットからイベントをシミュレートすることで、イベントベースの人体ポーズ推定に向けた新たな挑戦的なデータセットを公開する。実験結果から、本手法が高い精度を達成し、従来のRGB視覚とイベントベース視覚の性能差を縮小していることが示された。コードは、https://iit-pavis.github.io/lifting_events_to_3d_hpe にて無料で利用可能である。