TrackFormer : Suivi de multiples objets avec des Transformers

La tâche exigeante du suivi d’objets multiples (MOT) nécessite un raisonnement simultané sur l’initialisation des trajectoires, l’identité des objets et leurs trajectoires spatio-temporelles. Nous formulons cette tâche comme un problème de prédiction d’ensemble entre cadres et introduisons TrackFormer, une approche de MOT entièrement entraînable basée sur une architecture Transformer encodeur-décodeur. Notre modèle établit l’association des données entre cadres grâce à l’attention, en faisant évoluer un ensemble de prédictions de trajectoires au fil d’une séquence vidéo. Le décodeur Transformer initialise de nouvelles trajectoires à partir de requêtes d’objets statiques et suit de manière autoregressive les trajectoires existantes dans l’espace et le temps grâce à des requêtes de trajectoires conceptuellement nouvelles et préservant l’identité. Les deux types de requêtes bénéficient de l’attention self-attention et d’attention encodeur-décodeur sur des caractéristiques globales au niveau des cadres, ce qui permet d’éliminer tout besoin d’optimisation de graphe supplémentaire ou de modélisation explicite du mouvement et/ou de l’apparence. TrackFormer introduit un nouveau paradigme de suivi par attention. Bien simple dans sa conception, il parvient à atteindre des performances de pointe sur les tâches de suivi d’objets multiples (MOT17 et MOT20) et de segmentation (MOTS20). Le code est disponible à l’adresse suivante : https://github.com/timmeinhardt/trackformer.