Suivi d'objets sous forme de points

Le suivi a traditionnellement consisté à suivre des points d’intérêt à travers l’espace et le temps. Cette approche a évolué avec l’émergence de réseaux profonds puissants. Aujourd’hui, le suivi est dominé par des pipelines qui réalisent d’abord une détection d’objets, suivie d’une association temporelle, également connue sous le nom de « suivi par détection » (tracking-by-detection). Dans cet article, nous présentons un algorithme de détection et de suivi simultanés, plus simple, plus rapide et plus précis que l’état de l’art. Notre tracker, CenterTrack, applique un modèle de détection à une paire d’images ainsi qu’aux détections issues de l’image précédente. À partir de cette entrée minimale, CenterTrack localise les objets et prédit leurs associations avec le cadre précédent. C’est tout. CenterTrack est simple, en ligne (sans accès au futur) et en temps réel. Il atteint un taux de 67,3 % de MOTA sur le défi MOT17 à 22 FPS, et 89,4 % de MOTA sur le benchmark de suivi KITTI à 15 FPS, établissant un nouveau record sur les deux jeux de données. CenterTrack peut facilement être étendu au suivi 3D à partir d’une seule caméra en régressant des attributs 3D supplémentaires. En utilisant uniquement une vidéo monoscopique, il atteint un score de 28,3 % de AMOTA@0,2 sur le nouveau benchmark de suivi 3D nuScenes, surpassant de manière significative la ligne de base monoscopique sur ce benchmark, tout en fonctionnant à 28 FPS.