Requêtes autoregressives pour un suivi adaptatif avec des transformateurs spatio-temporels

L’information spatio-temporelle riche est cruciale pour capturer les variations complexes de l’apparence cible en suivi visuel. Toutefois, la plupart des algorithmes de suivi les plus performants s’appuient sur de nombreux composants conçus manuellement pour l’agrégation de cette information spatio-temporelle. En conséquence, l’information spatio-temporelle n’est pas pleinement exploitée. Pour atténuer ce problème, nous proposons un suiveur adaptable basé sur des transformateurs spatio-temporels (nommé AQATrack), qui utilise des requêtes autoregressives simples pour apprendre efficacement l’information spatio-temporelle sans recourir à de nombreux composants prédéfinis. Premièrement, nous introduisons un ensemble de requêtes apprenables et autoregressives afin de capturer les variations instantanées de l’apparence cible de manière glissante dans une fenêtre temporelle. Ensuite, nous concevons un nouveau mécanisme d’attention permettant l’interaction entre les requêtes existantes afin de générer une nouvelle requête pour le cadre actuel. Enfin, à partir du modèle initial de la cible et des requêtes autoregressives apprises, nous proposons un module d’agrégation d’information spatio-temporelle (STM) pour combiner efficacement les informations spatiales et temporelles afin de localiser l’objet cible. Grâce au STM, nous pouvons efficacement combiner l’apparence statique et les changements instantanés afin de guider un suivi robuste. Des expérimentations étendues montrent que notre méthode améliore significativement les performances du suiveur sur six benchmarks populaires : LaSOT, LaSOText, TrackingNet, GOT-10k, TNL2K et UAV123.