
要約
現在の主流である単眼3次元ポーズ推定手法は、通常、人体の一部(たとえば体幹や四肢)にのみ注目しており、人間の運動の本質的なニュアンスが顔、手、体の各部位における微細な連携運動によって伝達されることを無視している。本論文では、野生環境下の単眼画像から顔、手、体の3次元ポーズを同時に高精度かつ高速に推定できる「FrankMocap」という全体人体3次元ポーズ推定システムを提案する。FrankMocapの核となるアイデアは、モジュール型設計である。まず、顔、手、体それぞれに対して独立して3次元ポーズ回帰手法を適用し、その後、統合モジュールを用いて各回帰出力を統合する。独立した回帰モジュールにより、各部位の最先端の性能を最大限に活かしつつ、実用上における元の精度と信頼性を損なわずに運用可能となる。本研究では、遅延と精度のトレードオフを考慮した3種類の統合モジュールを構築した。これらはいずれも、独立した出力を滑らかに統合し、一貫した全体人体ポーズ推定結果を効果的に得るシンプルかつ実用的な解決策を提供する。定量的および定性的な実験により、本手法が、最適化ベースおよびエンドツーエンド型の全体人体ポーズ推定手法を上回ることを示した。