Apprentissage de la segmentation d'objets vidéo avec mémoire visuelle

Ce travail traite de la tâche de segmentation d'objets en mouvement dans des vidéos non contraintes. Nous présentons un nouveau réseau neuronal à deux flux doté d'un module mémoire explicite pour atteindre cet objectif. Les deux flux du réseau encodent respectivement les caractéristiques spatiales et temporelles d'une séquence vidéo, tandis que le module mémoire capture l'évolution des objets au fil du temps. Le module qui construit une « mémoire visuelle » dans la vidéo, c'est-à-dire une représentation conjointe de tous les cadres de la vidéo, est réalisé avec une unité récurrente convolutive apprise à partir d'un petit nombre de séquences vidéo d'entraînement. Étant donné un cadre vidéo en entrée, notre approche attribue à chaque pixel une étiquette d'objet ou de fond basée sur les caractéristiques spatio-temporelles apprises ainsi que sur la « mémoire visuelle » spécifique à la vidéo, acquise automatiquement sans aucune image annotée manuellement. La mémoire visuelle est mise en œuvre avec des unités récurrentes portées convolutives (convolutional gated recurrent units), ce qui permet de propager l'information spatiale au fil du temps. Nous évaluons notre méthode de manière exhaustive sur deux benchmarks : DAVIS et Freiburg-Berkeley Motion Segmentation Dataset, et nous montrons des résultats de pointe. Par exemple, notre approche surpassent la meilleure méthode existante sur le jeu de données DAVIS d'environ 6 %. Nous fournissons également une analyse ablatrice approfondie pour étudier l'influence de chaque composant dans le cadre proposé.