Vers une formation au niveau des séquences pour le suivi visuel

Bien que l'adoption extensive de l'apprentissage automatique pour la tâche de suivi d'objets visuels soit une réalité, les approches récentes basées sur l'apprentissage ont largement négligé le fait que, par nature, le suivi visuel est une tâche au niveau des séquences ; elles s'appuient fortement sur une formation au niveau des images, ce qui induit inévitablement une incohérence entre la formation et les tests en termes de distributions de données et d'objectifs de tâches. Cette étude introduit une stratégie de formation au niveau des séquences pour le suivi visuel basée sur l'apprentissage par renforcement et examine comment un design au niveau des séquences pour l'échantillonnage de données, les objectifs d'apprentissage et l'augmentation de données peut améliorer la précision et la robustesse des algorithmes de suivi. Nos expériences sur des benchmarks standards, tels que LaSOT, TrackingNet et GOT-10k, montrent que quatre modèles de suivi représentatifs, SiamRPN++, SiamAttn, TransT et TrDiMP, s'améliorent constamment en intégrant les méthodes proposées lors de la formation sans modifier leurs architectures.