段階的接触認識型グローバル人間運動予測

シーン認識型グローバルな人体運動予測は、バーチャルリアリティ、ロボティクス、スポーツなど多様な応用において重要である。このタスクは、与えられたシーン文脈の中で人体の軌道とポーズを同時に予測するものであり、極めて高い課題を伴う。これまでの研究では、Maoら(NeurIPS’22)のみがシーン認識型グローバル運動予測に取り組んでおり、将来のシーン接触点の予測とグローバル運動推定を段階的に処理するアプローチを採用している。特に後者の運動推定は、未来の軌道とポーズをエンドツーエンドで予測する形で実施されている。しかし、本研究では実証的に示すように、このエンドツーエンド方式はタスクの粗から細への性質と相反しており、結果として性能が低下する要因となっている。本研究では、3段階のパイプラインを採用した新しい手法「STAG(STaged contact-aware Global human motion forecasting)」を提案する。この手法は、3次元環境におけるグローバル人体運動の予測を実現する。第1段階では、シーンと人体の相互作用を接触点として捉える。第2段階では、シーン内における人体軌道の予測を行い、人体全体の粗い運動を推定する。第3段階では、推定された接触点を考慮しつつ、現実的な細かい関節運動を軌道に適合させる、より精緻な運動を生成する。従来の最先端(SoA)手法と比較して、シーン認識型GTA-IMデータセットにおいて、STAGはポーズ予測で1.8%、軌道予測で16.2%の全体的な性能向上を達成した。包括的なアブレーションスタディにより、段階的モデリングがエンドツーエンドアプローチに比べて優位性を持つことが確認された。さらに、本研究で新たに提案した時系列特徴「time-to-go」(残り時間)の重要性が明らかになった。この特徴は、接触点や終点に到達するまでの時間を明示的に表現するものであり、予測精度の向上に寄与している。特に注目すべきは、シーン情報が存在しないデータセットにも汎化可能な能力を示しており、社会的ヒント(social cues)を一切用いない状態でCMU-Mocapデータセットにおいても新たな最先端性能を達成した点である。本研究のコードは以下のURLで公開されている:https://github.com/L-Scofano/STAG