
要約
ビデオからの3次元人体運動推定は急速に進展しているが、現行の手法には依然としていくつかの主要な制約がある。第一に、大多数の手法はカメラ座標系における人体の推定に依存している。第二に、グローバル座標系での人体推定に関する先行研究は、多くの場合平坦な地面を仮定しており、結果として足のスライド(滑り)が生じる。第三に、最も精度の高い手法は計算コストが非常に高い最適化パイプラインに依存しており、オフライン処理に限定される。最後に、既存のビデオベースの手法は、単一フレームに基づく手法よりも驚くほど低い精度にとどまっている。本研究では、これらの課題を克服するため、グローバル座標系において正確かつ効率的に3次元人体運動を再構成できるWHAM(World-grounded Humans with Accurate Motion)を提案する。WHAMはモーションキャプチャデータを用いて2次元キーポイント時系列を3次元に変換する学習を行い、これをビデオ特徴と融合することで、運動の文脈情報と視覚情報を統合する。さらに、SLAM手法から推定されたカメラの角速度と人体運動を組み合わせることで、人体のグローバルな軌道を推定する。これに加え、接触状態を考慮した軌道微調整手法を導入することで、階段の上り下りなど多様な条件下での人体運動を正確に捉えることが可能となる。WHAMは、複数のリアルワールドベンチマークにおいて、既存のすべての3次元人体運動復元手法を上回る性能を発揮した。コードは研究目的で http://wham.is.tue.mpg.de/ にて公開される予定である。