Transformateurs de suivi global

Nous présentons une nouvelle architecture basée sur les transformateurs pour le suivi d'objets multiples à l'échelle globale. Notre réseau prend comme entrée une courte séquence d'images et produit des trajectoires globales pour tous les objets présents. Le composant central est un transformateur de suivi global opérant sur les objets issus de toutes les trames de la séquence. Ce transformateur encode les caractéristiques des objets issues de toutes les trames, et utilise des requêtes de trajectoire pour regrouper ces objets en trajectoires cohérentes. Les requêtes de trajectoire sont des caractéristiques d'objets issues d'une seule trame, ce qui permet naturellement de générer des trajectoires uniques. Contrairement aux approches classiques, notre transformateur de suivi global n’a pas besoin d’étapes intermédiaires de regroupement par paires ni d’associations combinatoires, et peut être entraîné de manière conjointe avec un détecteur d’objets. Il atteint des performances compétitives sur le benchmark populaire MOT17, avec un score MOTA de 75,3 et un HOTA de 59,1. Plus important encore, notre cadre s’intègre de manière transparente aux détecteurs d’état de l’art à grand vocabulaire afin de suivre n’importe quel objet. Des expériences menées sur le dataset exigeant TAO montrent que notre méthode améliore de manière cohérente les méthodes de référence basées sur l’association par paires, surpassant les travaux publiés de 7,7 points de mAP de suivi. Le code est disponible à l’adresse suivante : https://github.com/xingyizhou/GTR.