HyperAIHyperAI
il y a 16 jours

MeMOTR : Transformer à mémoire augmentée à long terme pour le suivi d'objets multiples

Ruopeng Gao, Limin Wang
MeMOTR : Transformer à mémoire augmentée à long terme pour le suivi d'objets multiples
Résumé

En tant que tâche vidéo, le suivi d’objets multiples (Multiple Object Tracking, MOT) doit capturer efficacement les informations temporelles des cibles. Malheureusement, la plupart des méthodes existantes exploitent uniquement de manière explicite les caractéristiques des objets entre cadres consécutifs, tout en manquant de capacité à modéliser les informations temporelles à long terme. Dans cet article, nous proposons MeMOTR, un Transformer enrichi par une mémoire à long terme pour le suivi d’objets multiples. Notre méthode permet de rendre les embeddings de trajectoire du même objet plus stables et plus distincts en exploitant une injection de mémoire à long terme via une couche d’attention mémoire personnalisée. Cela améliore significativement la capacité d’association des cibles de notre modèle. Les résultats expérimentaux sur DanceTrack montrent que MeMOTR dépasse de manière impressionnante la méthode de l’état de l’art de 7,9 % et 13,0 % respectivement sur les métriques HOTA et AssA. En outre, notre modèle surpasse également d’autres méthodes basées sur Transformer en termes de performance d’association sur MOT17, et se généralise bien sur BDD100K. Le code est disponible à l’adresse suivante : https://github.com/MCG-NJU/MeMOTR.

MeMOTR : Transformer à mémoire augmentée à long terme pour le suivi d'objets multiples | Articles de recherche récents | HyperAI