概要

ビデオベースの3次元人間姿勢と形状推定は、フレーム内精度とフレーム間平滑性によって評価されます。これらの2つの指標は異なる時間的一貫性の範囲を担当していますが、既存の最先端手法ではそれらを統一された問題として扱い、単調なモデリング構造（例：RNNやアテンションベースのブロック）を使用してネットワークを設計しています。しかし、単一のモデリング構造を使用することは、短期的な時間相関と長期的な時間相関の学習バランスを取ることが難しく、ネットワークがそのどちらかに偏る可能性があり、全体的位置ずれ、時間的一貫性の欠如、および局所的な詳細不足などの望ましくない予測につながります。これらの問題を解決するために、我々はエンドツーエンドフレームワークであるGlobal-to-Local Transformer (GLoT)において、長期的および短期的な相関のモデリングを構造的に分離することを提案します。まず、長期的モデリングのためにMasked Pose and Shape Estimation戦略を持つグローバルトランスフォーマーを導入します。この戦略は、いくつかのフレームの特徴をランダムにマスキングすることで、グローバルトランスフォーマーがより多くのフレーム間相関を学習するように刺激します。次に、局所トランスフォーマーは人間メッシュ上の局所的な詳細を利用し、クロスアテンションを利用してグローバルトランスフォーマーと相互作用します。さらに、階層的空间相関回帰器（Hierarchical Spatial Correlation Regressor）が導入され、分離されたグローバル-局所表現と暗黙的な運動制約によりフレーム内推定を洗練します。我々のGLoTはモデルパラメータ数が最少でありながら、3DPW, MPI-INF-3DHP, Human3.6Mなどの一般的なベンチマークで以前の最先端手法を超える性能を示しています。コードはhttps://github.com/sxl142/GLoT で公開されています。

ソースPDF コードを表示