HyperAIHyperAI
il y a 11 jours

TrackFormer : Suivi de multiples objets avec des Transformers

Tim Meinhardt, Alexander Kirillov, Laura Leal-Taixe, Christoph Feichtenhofer
TrackFormer : Suivi de multiples objets avec des Transformers
Résumé

La tâche exigeante du suivi d’objets multiples (MOT) nécessite un raisonnement simultané sur l’initialisation des trajectoires, l’identité des objets et leurs trajectoires spatio-temporelles. Nous formulons cette tâche comme un problème de prédiction d’ensemble entre cadres et introduisons TrackFormer, une approche de MOT entièrement entraînable basée sur une architecture Transformer encodeur-décodeur. Notre modèle établit l’association des données entre cadres grâce à l’attention, en faisant évoluer un ensemble de prédictions de trajectoires au fil d’une séquence vidéo. Le décodeur Transformer initialise de nouvelles trajectoires à partir de requêtes d’objets statiques et suit de manière autoregressive les trajectoires existantes dans l’espace et le temps grâce à des requêtes de trajectoires conceptuellement nouvelles et préservant l’identité. Les deux types de requêtes bénéficient de l’attention self-attention et d’attention encodeur-décodeur sur des caractéristiques globales au niveau des cadres, ce qui permet d’éliminer tout besoin d’optimisation de graphe supplémentaire ou de modélisation explicite du mouvement et/ou de l’apparence. TrackFormer introduit un nouveau paradigme de suivi par attention. Bien simple dans sa conception, il parvient à atteindre des performances de pointe sur les tâches de suivi d’objets multiples (MOT17 et MOT20) et de segmentation (MOTS20). Le code est disponible à l’adresse suivante : https://github.com/timmeinhardt/trackformer.

TrackFormer : Suivi de multiples objets avec des Transformers | Articles de recherche récents | HyperAI