TransCenter : Transformers à représentations denses pour le suivi multiple d'objets

Les Transformers ont démontré des performances supérieures dans une grande variété de tâches depuis leur introduction. Ces dernières années, ils ont attiré l’attention de la communauté du traitement d’images, notamment dans des tâches telles que la classification d’images et la détection d’objets. Malgré cette progression, aucune méthode précise et efficace de suivi multi-objets (MOT, Multiple-Object Tracking) fondée sur les Transformers n’a encore été conçue. Nous soutenons qu’une application directe d’une architecture Transformer présentant une complexité quadratique, combinée à des requêtes éparse initialement bruitées, n’est pas optimale pour le suivi multi-objets. Nous proposons TransCenter, une architecture de suivi multi-objets basée sur les Transformers, utilisant des représentations denses pour suivre avec précision tous les objets tout en maintenant un temps d’exécution raisonnable. Méthodologiquement, nous introduisons l’utilisation de requêtes de détection denses liées à l’image, ainsi que de requêtes de suivi éparse efficaces, générées par des réseaux d’apprentissage de requêtes (QLN, Query Learning Networks) soigneusement conçus. D’un côté, les requêtes de détection denses liées à l’image permettent d’estimer de manière globale et robuste les positions des cibles grâce à des cartes de chaleur denses. De l’autre, l’ensemble des requêtes de suivi éparse interagit efficacement avec les caractéristiques d’image dans le décodeur TransCenter afin d’associer les positions des objets au fil du temps. En conséquence, TransCenter obtient des améliorations remarquables des performances et dépasse largement les méthodes de pointe actuelles sur deux benchmarks standards de suivi multi-objets, dans deux configurations de suivi (publique/privee). TransCenter s’avère également efficace et précise, comme le démontre une étude d’ablation exhaustive ainsi que des comparaisons avec des approches plus naïves et d’autres travaux parallèles. Pour des raisons scientifiques, le code source est mis à disposition publiquement à l’adresse suivante : https://github.com/yihongxu/transcenter.