ARTrackV2 : Indication à un tracker auto-régressif de où regarder et comment décrire

Nous présentons ARTrackV2, qui intègre deux aspects cruciaux du suivi : déterminer où regarder (localisation) et comment décrire (analyse d'apparence) l'objet cible à travers les images vidéo. S'appuyant sur la base de son prédécesseur, ARTrackV2 étend ce concept en introduisant un cadre génératif unifié pour « lire » la trajectoire de l'objet et « raconter » son apparence de manière autoregressive. Cette approche favorise une méthodologie continue dans le temps qui modélise l'évolution conjointe du mouvement et des caractéristiques visuelles, guidée par les estimations précédentes. De plus, ARTrackV2 se distingue par son efficacité et sa simplicité, éliminant l'autoregression intra-image moins efficace et les paramètres manuellement ajustés pour les mises à jour d'apparence. Malgré sa simplicité, ARTrackV2 atteint des performances de pointe sur les ensembles de données de référence tout en démontrant une amélioration remarquable de l'efficacité. En particulier, ARTrackV2 obtient un score AO de 79,5 % sur GOT-10k et un AUC de 86,1 % sur TrackingNet tout en étant 3,6 fois plus rapide que ARTrack. Le code sera rendu disponible.