TransMOT : Transformateur de graphe spatio-temporel pour le suivi d'objets multiples

Le suivi de plusieurs objets dans les vidéos repose sur la modélisation des interactions spatiales et temporelles entre ces objets. Dans cet article, nous proposons une solution intitulée TransMOT, qui exploite des transformateurs de graphes puissants pour modéliser efficacement les interactions spatiales et temporelles entre les objets. TransMOT modélise de manière efficace les interactions impliquant un grand nombre d’objets en représentant les trajectoires des objets suivis sous la forme d’un ensemble de graphes pondérés creux, puis en construisant une couche d’encodeur de transformateur de graphe spatial, une couche d’encodeur de transformateur temporel et une couche de décodeur de transformateur de graphe spatial basées sur ces graphes. TransMOT est non seulement plus efficace sur le plan computationnel que le Transformer traditionnel, mais elle atteint également une meilleure précision de suivi. Pour améliorer davantage la vitesse et la précision du suivi, nous proposons un cadre d’association en cascade afin de traiter les détections à faible score et les occlusions à long terme, qui nécessitent des ressources computationnelles importantes dans TransMOT. La méthode proposée a été évaluée sur plusieurs jeux de données de référence, notamment MOT15, MOT16, MOT17 et MOT20, et obtient des performances de pointe sur l’ensemble de ces jeux de données.