HyperAIHyperAI

Command Palette

Search for a command to run...

グローバルからローカルへのモデリングによるビデオベースの3次元人間姿勢と形状推定

Xiaolong Shen extsuperscript1,2*, Zongxin Yang extsuperscript1, Xiaohan Wang extsuperscript1, Jianxin Ma extsuperscript2, Chang Zhou extsuperscript2, Yi Yang extsuperscript1

概要

ビデオベースの3次元人間姿勢と形状推定は、フレーム内精度とフレーム間平滑性によって評価されます。これらの2つの指標は異なる時間的一貫性の範囲を担当していますが、既存の最先端手法ではそれらを統一された問題として扱い、単調なモデリング構造(例:RNNやアテンションベースのブロック)を使用してネットワークを設計しています。しかし、単一のモデリング構造を使用することは、短期的な時間相関と長期的な時間相関の学習バランスを取ることが難しく、ネットワークがそのどちらかに偏る可能性があり、全体的位置ずれ、時間的一貫性の欠如、および局所的な詳細不足などの望ましくない予測につながります。これらの問題を解決するために、我々はエンドツーエンドフレームワークであるGlobal-to-Local Transformer (GLoT)において、長期的および短期的な相関のモデリングを構造的に分離することを提案します。まず、長期的モデリングのためにMasked Pose and Shape Estimation戦略を持つグローバルトランスフォーマーを導入します。この戦略は、いくつかのフレームの特徴をランダムにマスキングすることで、グローバルトランスフォーマーがより多くのフレーム間相関を学習するように刺激します。次に、局所トランスフォーマーは人間メッシュ上の局所的な詳細を利用し、クロスアテンションを利用してグローバルトランスフォーマーと相互作用します。さらに、階層的空间相関回帰器(Hierarchical Spatial Correlation Regressor)が導入され、分離されたグローバル-局所表現と暗黙的な運動制約によりフレーム内推定を洗練します。我々のGLoTはモデルパラメータ数が最少でありながら、3DPW, MPI-INF-3DHP, Human3.6Mなどの一般的なベンチマークで以前の最先端手法を超える性能を示しています。コードはhttps://github.com/sxl142/GLoT で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています