Réseaux Siamese prenant en compte les distracteurs pour le suivi d'objets visuels

Récemment, les réseaux siamois ont attiré une grande attention dans la communauté de suivi visuel en raison de leur précision et de leur rapidité équilibrées. Cependant, les caractéristiques utilisées dans la plupart des approches de suivi siamois ne permettent que de discriminer le premier plan des arrière-plans non sémantiques. Les arrière-plans sémantiques sont toujours considérés comme des distracteurs, ce qui nuit à la robustesse des traceurs siamois. Dans cet article, nous nous concentrons sur l'apprentissage de réseaux siamois capables de reconnaître les distracteurs pour un suivi précis et à long terme. À cette fin, les caractéristiques utilisées dans les traceurs siamois traditionnels sont d'abord analysées. Nous constatons que la distribution déséquilibrée des données d'entraînement rend les caractéristiques apprises moins discriminantes. Pendant la phase d'entraînement hors ligne, une stratégie d'échantillonnage efficace est introduite pour contrôler cette distribution et faire en sorte que le modèle se concentre sur les distracteurs sémantiques. Pendant l'inférence, un nouveau module capable de reconnaître les distracteurs est conçu pour effectuer un apprentissage incrémentiel, ce qui permet un transfert efficace de l'embedding général au domaine vidéo actuel. De plus, nous étendons notre approche pour le suivi à long terme en introduisant une stratégie simple mais efficace de recherche locale à globale (local-to-global). Des expériences approfondies sur des benchmarks montrent que notre approche dépasse significativement l'état de l'art, avec un gain relatif de 9,6 % sur le jeu de données VOT2016 et un gain relatif de 35,9 % sur le jeu de données UAV20L. Le traceur proposé peut fonctionner à 160 images par seconde (FPS) sur les benchmarks à court terme et à 110 FPS sur les benchmarks à long terme.