Component Aware Transformer を使用した一段階3D全身メッシュ回復

全身メッシュ復元は、単一の画像から3次元の人間の体、顔、および手のパラメータを推定することを目指しています。このタスクは解像度の問題により、単一のネットワークで行うことが困難です。つまり、顔と手は通常非常に小さな領域に位置しています。既存の手法では、一般的に手と顔を検出し、その解像度を拡大して特定のネットワークに入力し、パラメータを予測した後、最終的に結果を融合します。このコピー・アンド・ペーストパイプラインは顔と手の細かい詳細を捉えることができますが、異なる部位間の接続関係は後段での融合時に容易には復元できず、非現実的な3次元回転や不自然な姿勢につながることがあります。本研究では、各部位用の個別のネットワークを使用せずに表現豊かな全身メッシュ復元の一貫したパイプラインであるOSXを提案します。具体的には、グローバルボディエンコーダとローカルフェイス/ハンドデコーダから構成されるコンポーネントアウェアトランスフォーマー(CAT)を設計しました。エンコーダは体のパラメータを予測し、高品質な特徴マップをデコーダに提供します。デコーダは特徴レベルでのアップサンプル・クロップスキームを行い、高解像度の部位固有の特徴を抽出し、キーポイントガイド変形注意機構を使用して手と顔を正確に推定します。この全体的なパイプラインはシンプルでありながら効果的で、任意の手動ポストプロセッシングなしで非現実的な予測を自然に回避できます。包括的な実験を通じてOSXの有効性が示されています。最後に、基本的なタスクと下流アプリケーションとのギャップを埋めるために、部分的に可視な体を持つ人々が多様な実生活シナリオで含まれる大規模な上半身データセット(UBody)を作成しました。このデータセットには高品質な2Dおよび3D全身注釈が含まれています。