2ヶ月前

Multi-HMR: 単一ショットでの複数人物全身ヒューマンメッシュ回復

Baradel, Fabien ; Armando, Matthieu ; Galaaoui, Salma ; Brégier, Romain ; Weinzaepfel, Philippe ; Rogez, Grégory ; Lucas, Thomas
Multi-HMR: 単一ショットでの複数人物全身ヒューマンメッシュ回復
要約

私たちは単一のRGB画像から複数人の3次元ヒューマンメッシュを回復する強力なシングルショットモデルであるMulti-HMRを紹介します。このモデルはSMPL-Xパラメトリックモデルとカメラ座標系での3次元位置を使用して、全身(手や顔の表情も含む)の予測を行います。私たちのモデルは、標準的なビジョントランスフォーマー(ViT)バックボーンによって生成された特徴量を用いて、人物位置の粗い2次元ヒートマップを予測することで人物を検出します。その後、新しいクロスアテンションモジュールであるHuman Prediction Head (HPH) を使用して、検出された各人物に対して全体の特徴量に注目しながら全身の姿勢、形状、および3次元位置を予測します。既存データから直接細かい手や顔の姿勢をシングルショットで学習することは難しいため、私たちはCUFFS(Close-Up Frames of Full-Body Subjects データセット)を導入しました。このデータセットには、カメラに近い位置で多様な手の姿勢を持つ人々が含まれています。私たちはこのデータセットを訓練データに組み込むことで、特に手の予測性能が向上することを示しています。また、Multi-HMRは利用可能な場合にカメラ内部パラメータも考慮し、各イメージトークンに対してカメラレイ方向をエンコードすることができます。このシンプルな設計は全身と身体のみのベンチマークにおいて同時に優れた性能を達成しており、$448{\times}448$ピクセルの画像に対するViT-Sバックボーンでも高速かつ競争力のあるモデルとなっています。さらに大きなモデルや高解像度では最先端の結果を得ています。

Multi-HMR: 単一ショットでの複数人物全身ヒューマンメッシュ回復 | 最新論文 | HyperAI超神経