Exploiter la connectivité : Suivi multi-objets avec TrackletNet

Le suivi multi-objet (MOT) est une tâche importante et pratique liée aux systèmes de surveillance et aux applications de caméras mobiles, telles que la conduite autonome et la vision robotique. Cependant, en raison de détections non fiables, d'occultations et de mouvements rapides de la caméra, les cibles suivies peuvent être facilement perdues, ce qui rend le MOT très complexe. La plupart des travaux récents traitent le suivi comme une tâche de ré-identification (Re-ID), mais la façon de combiner les caractéristiques d'apparence et temporelles n'est toujours pas bien résolue. Dans cet article, nous proposons une méthode innovante et efficace de suivi appelée TrackletNet Tracker (TNT) qui combine les informations temporelles et d'apparence dans un cadre unifié. Tout d'abord, nous définissons un modèle graphique où chaque tracklet est considéré comme un sommet. Les tracklets sont générés par similarité d'apparence à l'aide de caractéristiques CNN et par intersection sur union (IOU) avec des contraintes épipolaires pour compenser le mouvement de la caméra entre les images consécutives. Ensuite, pour chaque paire de deux tracklets, la similarité est mesurée par notre TrackletNet conçu à plusieurs échelles. Par la suite, les tracklets sont regroupés en clusters représentant des identifiants individuels d'objets. Notre TNT proposé a la capacité de gérer la plupart des défis du MOT et obtient des résultats prometteurs sur les jeux de données de référence MOT16 et MOT17 comparativement aux autres méthodes de pointe.