
要約
単眼動画から3次元姿勢を推定することは、近年の著しい進展にもかかわらず、依然として挑戦的な課題である。一般的に、既存の手法は対象人物が小さすぎたり大きすぎたり、あるいは運動が訓練データのスケールや速度に対して極端に速すぎたり遅すぎたりする場合、性能が著しく低下する。さらに、本研究の知見によれば、これらの多くの手法は、重度の遮蔽(occlusion)を想定して設計・訓練されておらず、遮蔽の処理能力に課題を抱えている。このような問題に対処するために、本研究ではロバストな3次元人体姿勢推定を実現するための空間時間ネットワークを提案する。動画内の人物は異なるスケールで出現し、多様な運動速度を示すため、各フレームにおいて2次元関節やキーポイントの予測にマルチスケールの空間特徴を適用し、3次元関節やキーポイントの推定にはマルチストライドの時系列畳み込みネットワーク(TCN)を用いる。さらに、身体構造および肢の運動を基にした空間時間的識別器を設計し、予測された姿勢が物理的に妥当な姿勢であり、かつ自然な運動を形成しているかどうかを評価する。学習段階では、微小な遮蔽から重度の遮蔽までを模倣するため、一部のキーポイントを明示的にマスクする手法を採用することで、ネットワークがさまざまな遮蔽状況に耐えうるよう学習できる。また、3次元の真値データが限られていることから、2次元動画データを活用してネットワークに準教師あり学習の能力を付与する。公開データセットにおける実験により、本手法の有効性が検証され、アブレーションスタディによってネットワーク内の各サブモジュールの貢献度が明確に示された。