Réseau de mémoire à noyau pour la segmentation d'objets vidéo

La segmentation d'objets vidéo semi-supervisée (VOS) est une tâche consistant à prédire la localisation d'un objet cible dans une vidéo, lorsque le masque de segmentation vrai (ground truth) de cet objet est fourni uniquement dans la première image. Récemment, les réseaux de mémoire espace-temps (STM) ont suscité un intérêt croissant en tant que solution prometteuse pour la VOS semi-supervisée. Toutefois, un point crucial est souvent négligé lors de l'application de STM à la VOS : la solution (STM) est non locale, tandis que le problème (VOS) est principalement local. Pour corriger ce désalignement, nous proposons un réseau de mémoire à noyau (KMN). Avant d'être entraîné sur des vidéos réelles, notre KMN est pré-entraîné sur des images statiques, comme dans les travaux antérieurs. Contrairement aux approches antérieures, nous utilisons une stratégie de type Hide-and-Seek durant le pré-entraînement afin d'obtenir les meilleurs résultats possibles en matière de gestion des occlusions et d'extraction précise des contours des segments. Le KMN proposé dépasse largement l'état de l'art sur les benchmarks standards, avec une amélioration de +5 % sur l'ensemble de test-dev de DAVIS 2017. De plus, le temps d'exécution du KMN s'élève à 0,12 seconde par image sur l'ensemble de validation de DAVIS 2016, et le KMN nécessite très peu de calculs supplémentaires par rapport à STM.