
要約
本稿では、シーンに応じた3次元人間の運動予測という課題に取り組む。このタスクの鍵となる課題は、人間とシーンの相互作用をモデル化することで、シーンに整合した将来の人間運動を予測することにある。近年の研究では、人間とシーンの相互作用に明示的な制約を課すことで、ガストモーション(不自然な運動)の発生を防ぐことが示されているが、これらの手法は人間運動の一部(たとえば、人間全体の運動やシーンに接触する少数の関節)にのみ制約を設けるにとどまり、残りの運動は制約されないままとなっている。この限界を克服するため、本研究では人間の体とシーンとの相互距離を用いて人間-シーン相互作用をモデル化する手法を提案する。この相互距離は、局所的および全体的な人間運動の両方を制約するため、全身にわたる運動が制約された予測を実現する。特に、相互距離制約は、人間メッシュ上の各頂点からシーン表面までの符号付き距離と、シーンの基底点から人間メッシュまでの距離という二つの成分で構成される。さらに、符号付き距離関数(SDF)ボリュームから学習されたグローバルなシーン表現を導入することで、グローバルなシーン表現と相互距離から得られる明示的な制約との一貫性を確保する。本研究では、未来の相互距離をまず予測し、その後に未来の人間運動を予測する二段階のパイプラインを構築した。訓練段階では、予測されたポーズと相互距離の間に一貫性が生じるように明示的に促進する。既存の合成データセットおよび実データセットにおける広範な評価により、本手法が最先端手法を一貫して上回ることを実証した。