MOTR : Suivi de multiples objets de bout en bout avec Transformer

La modélisation temporelle des objets est un défi majeur dans le suivi de multiples objets (MOT). Les méthodes existantes effectuent le suivi en associant les détections par des heuristiques de similarité basées sur le mouvement et l'apparence. La nature post-traitement de l'association empêche l'exploitation intégrale des variations temporelles dans la séquence vidéo. Dans cet article, nous proposons MOTR, qui étend DETR et introduit une requête de suivi pour modéliser les instances suivies dans toute la vidéo. La requête de suivi est transférée et mise à jour image par image pour effectuer des prédictions itératives au fil du temps. Nous proposons une attribution d'étiquettes consciente des trajectoires pour former les requêtes de suivi et les requêtes d'objets nouveaux-nés. Nous introduisons également un réseau d'agrégation temporelle et une perte moyenne collective pour améliorer la modélisation des relations temporelles. Les résultats expérimentaux sur DanceTrack montrent que MOTR surpasse significativement la méthode de pointe ByteTrack, avec une amélioration de 6,5 % sur la métrique HOTA. Sur MOT17, MOTR offre de meilleures performances en association que nos travaux concurrents, TrackFormer et TransTrack. MOTR peut servir de base plus solide pour les futures recherches en modélisation temporelle et en traceurs basés sur les Transformers. Le code est disponible à l'adresse suivante : https://github.com/megvii-research/MOTR.