2ヶ月前

明示的なボックス検出がエンドツーエンドの多人数ポーズ推定を統一する

Jie Yang; Ailing Zeng; Shilong Liu; Feng Li; Ruimao Zhang; Lei Zhang
明示的なボックス検出がエンドツーエンドの多人数ポーズ推定を統一する
要約

本論文では、多人数の姿勢推定にExplicit box Detection(明示的なボックス検出)を用いた新しいエンドツーエンドフレームワークであるED-Poseを提案します。このフレームワークは、人間レベル(グローバル)とキーポイントレベル(ローカル)の情報間のコンテクスト学習を統一しています。従来の単段階手法とは異なり、ED-Poseはこのタスクを統一された表現と回帰監督のもとで2つの明示的なボックス検出プロセスとして再考します。まず、エンコードされたトークンからグローバル特徴を抽出するための人間検出デコーダーを導入します。これにより、後のキーポイント検出の初期化が良くなり、学習過程が速やかに収束します。次に、キーポイント周辺のコンテクスト情報を導入するために、姿勢推定をキーポイントボックス検出問題として扱い、各キーポイントのボックス位置と内容を学習します。人間からキーポイントへの検出デコーダーは、人間特徴とキーポイント特徴との間での対話型学習戦略を採用し、グローバルおよびローカル特徴の集約をさらに強化します。全体的に見て、ED-Poseは後処理や高密度ヒートマップ監督なしで概念的にシンプルです。これは2段階手法や単段階手法と比較して効果性と効率性を示しています。特に、明示的なボックス検出によりCOCOデータセットで4.5 AP(平均精度)、CrowdPoseデータセットで9.9 APの姿勢推定性能向上が見られます。初めてL1回帰損失を使用した完全なエンドツーエンドフレームワークとして、同じバックボーンを使用するヒートマップベースのトップダウン手法を超える性能を発揮し、COCOデータセットで1.2 AP上回り、CrowdPoseデータセットでは76.6 APという最先端の結果を得ています。コードは以下のURLから入手可能です: https://github.com/IDEA-Research/ED-Pose.

明示的なボックス検出がエンドツーエンドの多人数ポーズ推定を統一する | 最新論文 | HyperAI超神経