2ヶ月前

物体を点として扱う

Xingyi Zhou; Dequan Wang; Philipp Krähenbühl
物体を点として扱う
要約

検出は、画像内の物体を軸に合わせたボックスとして識別します。最も成功した物体検出器は、潜在的な物体位置のほぼ網羅的なリストを列挙し、それぞれを分類します。これは無駄であり、非効率的で、さらに後処理が必要です。本論文では異なるアプローチを取ります。物体をそのバウンディングボックスの中心点としてモデル化します。当該検出器はキーポイント推定を使用して中心点を見つけ、サイズ、3D位置、向き、さらには姿勢などの他のすべての物体特性を回帰します。私たちの中心点ベースのアプローチであるCenterNetは、エンドツーエンドで微分可能であり、より単純で高速かつ正確です。CenterNetはMS COCOデータセットにおいて最良の速度-精度トレードオフを達成しており、142 FPSで28.1% AP、52 FPSで37.4% AP、マルチスケールテストでは1.4 FPSで45.1% APとなっています。また同じ手法を使用してKITTIベンチマークでの3DバウンディングボックスとCOCOキーポイントデータセット上の人間の姿勢も推定しました。当手法は複雑な多段階手法と競争力がありつつリアルタイムで動作します。