ETTrack : Prédicteur amélioré de mouvement temporel pour le suivi d'objets multiples

De nombreuses approches de suivi multi-objets (Multi-Object Tracking, MOT) exploitent les informations de mouvement pour associer tous les objets détectés à travers les trames. Toutefois, de nombreuses méthodes fondées sur des algorithmes de filtrage, telles que le filtre de Kalman, fonctionnent souvent bien dans des scénarios de mouvement linéaire, mais peinent à prédire avec précision les positions des objets en mouvement complexe et non linéaire. Pour relever ces défis, nous proposons une approche MOT basée sur le mouvement, appelée ETTrack, dotée d’un prédicteur temporel du mouvement amélioré. Plus précisément, ce prédicteur intègre un modèle Transformer et un Réseau de Convolution Temporelle (Temporal Convolutional Network, TCN) afin de capturer à la fois les motifs de mouvement à court et à long terme, et de prédire l’évolution future du mouvement d’un objet en se basant sur son historique de mouvement. En outre, nous introduisons une nouvelle fonction de perte, appelée Momentum Correction Loss, qui fournit durant l’entraînement des informations supplémentaires sur la direction du mouvement des objets. Cela permet au prédicteur de s’adapter rapidement aux variations de mouvement et de prédire plus précisément les trajectoires futures. Nos résultats expérimentaux montrent qu’ETTrack atteint des performances compétitives par rapport aux trackers les plus avancés sur les benchmarks DanceTrack et SportsMOT, obtenant respectivement 56,4 % et 74,4 % en métrique HOTA.