2ヶ月前

RTMO: 高性能の単段階リアルタイム多人物姿勢推定に向けて

Lu, Peng ; Jiang, Tao ; Li, Yining ; Li, Xiangtai ; Chen, Kai ; Yang, Wenming
RTMO: 高性能の単段階リアルタイム多人物姿勢推定に向けて
要約

リアルタイムの多人数姿勢推定は、速度と精度のバランスを取る上で大きな課題を呈しています。画像内の人数が増えるにつれて二段階トップダウン手法は遅くなり、既存の一段階手法は高精度とリアルタイム性能を同時に達成することがしばしば困難です。本論文では、RTMO(Real-Time Multi-Person Pose Estimation)という一段階の姿勢推定フレームワークを紹介します。このフレームワークはYOLOアーキテクチャ内においてキーポイントを双方向1次元ヒートマップで表現することにより座標分類を無縫接続的に統合し、トップダウン手法に匹敵する精度を保ちつつ高速性も維持しています。我々は座標分類と密集予測モデル間の非互換性に対処するために、動的な座標分類器とヒートマップ学習用の特化した損失関数を提案します。RTMOは最先端の一段階姿勢推定器を超えており、同じバックボーンを使用してCOCOデータセットでAP(Average Precision)が1.1%向上し、約9倍速いパフォーマンスを示しています。最大のモデルであるRTMO-lは、COCO val2017で74.8%のAPを達成し、単一のV100 GPU上で141 FPS(Frames Per Second)を記録しており、その効率性と精度を証明しています。コードとモデルは以下のURLから入手可能です: https://github.com/open-mmlab/mmpose/tree/main/projects/rtmo.

RTMO: 高性能の単段階リアルタイム多人物姿勢推定に向けて | 最新論文 | HyperAI超神経