Segmentation d'objets vidéo à l'aide de réseaux de mémoire espace-temps

Nous proposons une nouvelle solution pour le segmention d'objets vidéo semi-supervisée. Par la nature du problème, les indices disponibles (par exemple, des images de vidéo avec des masques d'objets) deviennent plus riches grâce aux prédictions intermédiaires. Cependant, les méthodes existantes ne parviennent pas à exploiter pleinement cette source d'information riche. Nous résolvons ce problème en utilisant des réseaux de mémoire et en apprenant à lire les informations pertinentes provenant de toutes les sources disponibles. Dans notre cadre, les images passées avec des masques d'objets forment une mémoire externe, et l'image actuelle, en tant que requête, est segmentée en utilisant les informations de masque stockées dans la mémoire. Plus précisément, la requête et la mémoire sont appariées de manière dense dans l'espace des caractéristiques, couvrant toutes les positions spatio-temporelles des pixels de manière feed-forward. Contrairement aux approches précédentes, l'utilisation abondante des informations directrices nous permet de mieux gérer les défis tels que les changements d'apparence et les occultations. Nous validons notre méthode sur les derniers ensembles de référence et avons obtenu des performances de pointe (score global de 79,4 sur l'ensemble val de Youtube-VOS, J de 88,7 et 79,2 sur l'ensemble val de DAVIS 2016/2017 respectivement) tout en offrant un temps d'exécution rapide (0,16 seconde/image sur l'ensemble val de DAVIS 2016).