Objets comme points

La détection identifie les objets sous forme de boîtes alignées sur l'axe dans une image. La plupart des détecteurs d'objets réussis énumèrent une liste quasi exhaustive des positions potentielles des objets et classifient chacune d'entre elles. Cette méthode est gaspilleuse, inefficace et nécessite un traitement postérieur supplémentaire. Dans cet article, nous adoptons une approche différente. Nous modélisons un objet comme un seul point --- le point central de sa boîte englobante. Notre détecteur utilise l'estimation de points clés pour trouver les points centraux et régresse vers toutes les autres propriétés de l'objet, telles que la taille, la position 3D, l'orientation et même la posture. Notre approche basée sur les points centraux, appelée CenterNet, est entièrement différentiable, plus simple, plus rapide et plus précise que les détecteurs basés sur des boîtes englobantes correspondants. CenterNet offre le meilleur compromis vitesse-précision sur le jeu de données MS COCO, avec 28,1 % d'AP (Average Precision) à 142 FPS (images par seconde), 37,4 % d'AP à 52 FPS et 45,1 % d'AP avec des tests multi-échelles à 1,4 FPS. Nous utilisons la même approche pour estimer les boîtes englobantes 3D dans le benchmark KITTI et la posture humaine sur le jeu de données COCO keypoint. Notre méthode se compare favorablement aux méthodes sophistiquées en plusieurs étapes et fonctionne en temps réel.