RemoCap: 運動捕捉のための分離表現学習

現実的な動作シーケンスから3次元の人間の身体を再構築することは、広範で複雑な被覆(occlusions)のため、依然として課題となっています。現在の手法は、被覆された身体部位の動態を捉えることが難しく、モデル貫通や歪んだ動きが生じることがあります。RemoCapは、空間分離(Spatial Disentanglement: SD)と動作分離(Motion Disentanglement: MD)を利用してこれらの制約を克服します。SDは、対象の人間の身体と周囲の物体との間での被覆干渉に対処します。これにより、対象特徴量を次元軸に沿って分離し、各次元における空間位置に基づいて特徴量を整列することで、グローバルウィンドウ内での対象物体の応答を隔離します。これにより、被覆がある場合でも正確な捕捉が可能となります。MDモジュールは、チャネルごとの時間シャッフル戦略を使用して多様なシーン動態をシミュレートします。このプロセスにより、動作特徴量が効果的に分離され、RemoCapは被覆部分をより忠実に再構築できます。さらに、本論文ではシーケンス速度損失を導入しています。この損失関数は時間的一貫性を促進し、フレーム間の速度誤差を制約することで、予測される動作が現実的な一貫性を持つことを確保します。ベンチマークデータセットでの最先端(State-of-the-Art: SOTA)手法との比較実験により、RemoCapが3次元人間身体再構築において優れた性能を持つことが示されています。3DPWデータセットでは、RemoCapはすべての競合他社を超えて最良の結果(MPVPE 81.9, MPJPE 72.7, PA-MPJPE 44.1)を達成しています。コードは以下のURLから入手可能です: https://wanghongsheng01.github.io/RemoCap/。