PyMAF-X: 単眼画像からの完全な全身モデル回帰への道程

単眼画像からパラメトリックな全身モデルを回復するための回帰ベースの手法であるPyMAF-Xを提案します。この課題は非常に難易度が高く、パラメータの微小なずれでも推定されたメッシュと入力画像との間に顕著な不整合が生じる可能性があります。さらに、部位ごとの推定結果を全身モデルに統合する際、既存の解決策ではアライメントが悪化したり、不自然な手首の姿勢が生成されたりすることがあります。これらの問題に対処するために、我々は回帰ネットワークにおいて良好なアライメントを持つ人間メッシュの回復のためにピラミダルメッシュアライメントフィードバック(PyMAF)ループを提案し、それを拡張して表現豊かな全身モデルの回復に使用するPyMAF-Xを開発しました。PyMAFの中心的なアイデアは、特徴ピラミッドを利用し、メッシュ-画像アライメント状態に基づいて予測されたパラメータを明示的に修正することです。具体的には、現在予測されているパラメータに対して、より高解像度の特徴からメッシュに合わせた証拠が抽出され、パラメータ修正のためにフィードバックされます。アライメント認識を強化するために、補助的な密集監督が導入され、メッシュ-画像対応ガイドとして機能します。また、空間アライメント注意機構が導入されており、ネットワーク全体でのコンテキスト認識を可能にしています。全身メッシュ回復へのPyMAFの拡張においては、PyMAF-Xで適応的な統合戦略が提案されています。これにより、部位ごとの推定結果の良好なアライメント性能を維持しながら自然な手首の姿勢を生成することができます。我々の手法の有効性は、体幹部、手部、顔部および全身メッシュ回復に関する複数のベンチマークデータセットで検証されており、PyMAFとPyMAF-Xは効果的にメッシュ-画像アライメントを改善し、新しい最先端の結果を達成しています。プロジェクトページ(コードとビデオ結果付き)はhttps://www.liuyebin.com/pymaf-x でご覧いただけます。