Réseaux Siamese Fully-Convolutionnels pour le Suivi d'Objets

Le problème du suivi d'objets arbitraires a traditionnellement été abordé en apprenant un modèle de l'apparence de l'objet exclusivement en ligne, en utilisant uniquement les données de la vidéo comme ensemble d'entraînement. Malgré le succès de ces méthodes, leur approche uniquement en ligne limite intrinsèquement la richesse du modèle qu'elles peuvent apprendre. Récemment, plusieurs tentatives ont été faites pour exploiter la puissance expressive des réseaux convolutifs profonds. Cependant, lorsque l'objet à suivre n'est pas connu à l'avance, il est nécessaire d'effectuer une descente de gradient stochastique en ligne pour adapter les poids du réseau, ce qui compromet gravement la vitesse du système. Dans cet article, nous équipons un algorithme de suivi basique avec un nouveau réseau neuronal Siamese entièrement convolutif formé bout à bout sur le jeu de données ILSVRC15 pour la détection d'objets dans les vidéos. Notre traceur fonctionne à des taux d'images supérieurs au temps réel et, malgré sa simplicité extrême, atteint des performances de pointe dans plusieurs benchmarks.