Correspondance locale de toutes les paires pour le suivi de points

Nous introduisons LocoTrack, un modèle hautement précis et efficace conçu pour la tâche de suivi de tout point (TAP, Tracking Any Point) dans des séquences vidéo. Les approches précédentes dans ce domaine reposent souvent sur des cartes de corrélation 2D locales pour établir des correspondances entre un point dans l’image de requête et une région locale dans l’image cible, ce qui entraîne fréquemment des ambiguïtés de correspondance dans les régions homogènes ou les zones présentant des motifs répétitifs. LocoTrack surmonte ce défi grâce à une approche novatrice qui exploite des correspondances entre toutes les paires de régions, c’est-à-dire une corrélation 4D locale, afin d’établir des correspondances précises. La correspondance bidirectionnelle et la régularité de la correspondance renforcent significativement la robustesse face aux ambiguïtés. Nous intégrons également un encodeur de corrélation léger afin d’améliorer l’efficacité computationnelle, ainsi qu’une architecture Transformer compacte pour intégrer des informations temporelles à long terme. LocoTrack atteint une précision inégalée sur tous les benchmarks TAP-Vid et opère à une vitesse presque six fois plus rapide que l’état de l’art actuel.