Réseaux Siamese Plus Profonds et Plus Large pour le Suivi Visuel en Temps Réel

Les réseaux Siamese ont attiré une grande attention dans le domaine du suivi visuel en raison de leur précision et de leur rapidité équilibrées. Cependant, les réseaux de base utilisés dans les traceurs Siamese sont relativement peu profonds, comme AlexNet [18], ce qui ne permet pas d'exploiter pleinement les capacités des réseaux neuronaux profonds modernes. Dans cet article, nous examinons comment utiliser des réseaux neuronaux convolutionnels plus profonds et plus larges pour améliorer la robustesse et la précision du suivi. Nous constatons que le remplacement direct des réseaux de base par des architectures puissantes existantes, telles que ResNet [14] et Inception [33], n'apporte pas d'améliorations. Les principales raisons sont que 1) de grandes augmentations du champ recepteur des neurones entraînent une diminution de la discernabilité des caractéristiques et de la précision de localisation ; et 2) le remplissage (padding) du réseau pour les convolutions induit un biais positionnel dans l'apprentissage. Pour résoudre ces problèmes, nous proposons de nouveaux modules résiduels afin d'éliminer l'impact négatif du remplissage, et nous concevons ensuite de nouvelles architectures utilisant ces modules avec une taille contrôlée du champ recepteur et un stride (pas) de réseau. Les architectures conçues sont légères et garantissent une vitesse de suivi en temps réel lorsqu'elles sont appliquées à SiamFC [2] et SiamRPN [20]. Les expériences montrent que grâce aux seules architectures de réseau proposées, notre SiamFC+ et SiamRPN+ obtiennent jusqu'à 9,8%/5,7% (AUC), 23,3%/8,8% (EAO) et 24,4%/25,0% (EAO) d'améliorations relatives par rapport aux versions originales [2, 20] sur les jeux de données OTB-15, VOT-16 et VOT-17, respectivement.