2ヶ月前

複数の身体の検出、姿勢推定およびセグメンテーション:良性循環の完成

Purkrabek, Miroslav ; Matas, Jiri
複数の身体の検出、姿勢推定およびセグメンテーション:良性循環の完成
要約

人間の姿勢推定手法は単独の人に対しては効果的ですが、複数の人が近接している状況では苦戦します。これまでの研究では、検出されたバウンディングボックスやキーポイントを条件として姿勢推定を行うことでこの問題に取り組んできましたが、インスタンスマスクには注目が向けられていませんでした。本研究では、バウンディングボックス、インスタンスマスク、および姿勢の相互一貫性を反復的に強制することを提案します。導入したBBox-Mask-Pose (BMP) メソッドは、3つの専門的なモデルを使用し、これらのモデルがクローズドループで互いの出力を改善します。すべてのモデルは相互条件付けのために適応されており、これにより多人数シーンでの堅牢性が向上します。新しいマスク条件付き姿勢推定モデルであるMaskPoseは、トップダウンアプローチの中でもOCHumanデータセットで最も優れています。BBox-Mask-PoseはOCHumanデータセットにおいて検出、インスタンスセグメンテーション、および姿勢推定という3つのタスク全てで最先端(SOTA)の性能を達成しています。またCOCO姿勢推定においてもSOTAの性能を達成しています。特に大規模なインスタンス重なりがあるシーンでは、ベースライン検出器に対して39%の検出精度向上を示しています。小さな専門的なモデルと高速な実行時間を特徴とするBMPは、大規模な人間中心の基盤モデルに対する効果的な代替手段です。コードとモデルはhttps://MiraPurkrabek.github.io/BBox-Mask-Pose から利用可能です。