HyperAIHyperAI

Command Palette

Search for a command to run...

Multi-HMR: 単一ショットでの複数人物全身ヒューマンメッシュ回復

Fabien Baradel Matthieu Armando Salma Galaaoui Romain Brégier Philippe Weinzaepfel Grégory Rogez Thomas Lucas

概要

私たちは単一のRGB画像から複数人の3次元ヒューマンメッシュを回復する強力なシングルショットモデルであるMulti-HMRを紹介します。このモデルはSMPL-Xパラメトリックモデルとカメラ座標系での3次元位置を使用して、全身(手や顔の表情も含む)の予測を行います。私たちのモデルは、標準的なビジョントランスフォーマー(ViT)バックボーンによって生成された特徴量を用いて、人物位置の粗い2次元ヒートマップを予測することで人物を検出します。その後、新しいクロスアテンションモジュールであるHuman Prediction Head (HPH) を使用して、検出された各人物に対して全体の特徴量に注目しながら全身の姿勢、形状、および3次元位置を予測します。既存データから直接細かい手や顔の姿勢をシングルショットで学習することは難しいため、私たちはCUFFS(Close-Up Frames of Full-Body Subjects データセット)を導入しました。このデータセットには、カメラに近い位置で多様な手の姿勢を持つ人々が含まれています。私たちはこのデータセットを訓練データに組み込むことで、特に手の予測性能が向上することを示しています。また、Multi-HMRは利用可能な場合にカメラ内部パラメータも考慮し、各イメージトークンに対してカメラレイ方向をエンコードすることができます。このシンプルな設計は全身と身体のみのベンチマークにおいて同時に優れた性能を達成しており、448×448448{\times}448448×448ピクセルの画像に対するViT-Sバックボーンでも高速かつ競争力のあるモデルとなっています。さらに大きなモデルや高解像度では最先端の結果を得ています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています