
本研究では、複雑な多人数3次元ボディメッシュ推定タスクに取り組んでいます。既存の手法は主に2段階で構成されています——1つ目の段階で人物の位置を特定し、2つ目の段階で個々のボディメッシュを推定します。これにより、計算コストが高く、複雑なシーン(例えば、被遮蔽された人物インスタンス)での性能が低下する冗長なパイプラインが生じています。本研究では、この問題を解決するために単一ステージモデルである「Body Meshes as Points (BMP)」を提案します。BMPは、空間深度空間において複数の人物インスタンスを点として表現する新しい手法を採用しており、各点には1つのボディメッシュが関連付けられています。このような表現に基づいて、BMPは単一ステージで複数の人物のボディメッシュを直接予測することが可能となり、人物インスタンスポイントの位置特定と対応するボディメッシュの推定を同時に行います。さらに、同一シーン内のすべての人物間の深度順序についてより正確に推論するために、BMPは単純ながら効果的なインターインスタンス序数深度損失(inter-instance ordinal depth loss)を設計しています。また、被遮蔽された人物インスタンスに対するモデルの堅牢性向上のために、新たなキーポイント認識型データ拡張(keypoint-aware augmentation)も導入しています。Panoptic, MuPoTS-3D, 3DPWというベンチマークでの包括的な実験結果は、BMPが多人数ボディメッシュ推定において最先端の効率性と優れた精度を持つことを明確に示しています。コードは以下のURLから入手できます: https://github.com/jfzhang95/BMP.