Suivi visuel haute performance basé sur un réseau de proposition de région à la mode Siamese

Le suivi d’objets visuels a été un sujet fondamental ces dernières années, et de nombreux trackers basés sur l’apprentissage profond ont atteint des performances de pointe sur plusieurs benchmarks. Toutefois, la plupart de ces trackers peinent à atteindre des performances optimales tout en maintenant une vitesse en temps réel. Dans cet article, nous proposons le Siamese Region Proposal Network (Siamese-RPN), un modèle entraîné de manière end-to-end hors ligne à partir de paires d’images à grande échelle. Plus précisément, ce réseau se compose d’un sous-réseau Siamese pour l’extraction de caractéristiques et d’un sous-réseau de proposition de régions incluant une branche de classification et une branche de régression. Pendant la phase d’inférence, le cadre proposé est formulé comme une tâche de détection à une seule image (one-shot) locale. Nous pouvons prédéterminer la branche modèle du sous-réseau Siamese et transformer les couches de corrélation en couches de convolution triviales afin d’effectuer le suivi en ligne. Grâce au raffinement des propositions, les approches classiques telles que les tests multi-échelles ou l’ajustement en ligne peuvent être éliminées. Le Siamese-RPN fonctionne à 160 FPS tout en obtenant des performances de pointe sur les défis en temps réel de VOT2015, VOT2016 et VOT2017.