
要約
我々は、初めての直接的エンドツーエンド型多人数ポーズ推定フレームワークであるDirectPoseを提案する。近年のアンカー不要な物体検出器に着想を得て、ターゲットバウンディングボックスの2つの角を直接回帰する手法を参考に、本フレームワークは、生の入力画像からすべてのインスタンスに対し、インスタンスに依存するキーポイントを直接予測する。これにより、ボトムアップ法におけるヒューリスティックなグループ化処理や、トップダウン法におけるバウンディングボックス検出およびRoI操作の必要性が排除される。さらに、本フレームワークにおける主要な課題である畳み込み特徴量と予測結果との間のアライメント不足を克服するため、新たなキーポイントアライメント(KPAlign)機構を提案する。KPAlignは、フレームワークの性能を大幅に向上させる一方で、エンドツーエンドでの微調整が可能な状態を維持する。単一の後処理として非最大抑制(NMS)を用いるだけで、本フレームワークは、バウンディングボックスの有無を問わず、ワンショットで多人数のキーポイントを検出可能である。実験の結果、エンドツーエンドのアプローチは、ボトムアップ法およびトップダウン法の両方において、従来の強力なベースラインと比較して競争力ある、あるいはそれ以上の性能を達成できることを示した。本研究のエンドツーエンドアプローチが、人体ポーズ推定というタスクに新たな視点を提供することを期待している。