Détection, suivi et comptage réunis aux drones dans les foules : une référence

Afin de promouvoir les progrès des algorithmes de détection, de suivi et de comptage d’objets dans les vidéos capturées par drones, nous avons construit un benchmark basé sur un nouveau jeu de données à grande échelle, nommé DroneCrowd, constitué de 112 extraits vidéo comprenant 33 600 images en haute définition (HD) dans diverses scènes. Notamment, nous avons annoté 20 800 trajectoires de personnes, correspondant à 4,8 millions de têtes, ainsi que plusieurs attributs au niveau de la vidéo. Par ailleurs, nous avons conçu le réseau Space-Time Neighbor-Aware Network (STNNet) comme une base solide pour résoudre de manière conjointe la détection, le suivi et le comptage d’objets dans des scènes fortement densifiées. STNNet est composé d’un module d’extraction de caractéristiques, suivi de têtes d’estimation de carte de densité, ainsi que de sous-réseaux de localisation et d’association. Afin d’exploiter l’information contextuelle provenant des objets voisins, nous avons introduit une fonction de perte de contexte voisin, qui guide l’entraînement du sous-réseau d’association en imposant une cohérence des positions relatives des objets proches au fil du temps. Des expériences étendues sur notre jeu de données DroneCrowd démontrent que STNNet obtient des performances supérieures par rapport aux méthodes de pointe actuelles.