PReMVOS : Génération de propositions, raffinement et fusion pour la segmentation d'objets dans les vidéos

Nous abordons la segmentation d'objets vidéo semi-supervisée, tâche consistant à générer automatiquement des masques de pixels précis et cohérents pour les objets dans une séquence vidéo, en partant des annotations de vérité terrain de la première image. Pour atteindre cet objectif, nous présentons l'algorithme PReMVOS (Génération de propositions, Affinage et Fusion pour la Segmentation d'Objets Vidéo). Notre méthode divise ce problème en deux étapes : tout d'abord, elle génère un ensemble de propositions de masques de segmentation d'objets précises pour chaque image du vidéo, puis sélectionne et fusionne ces propositions en pistes d'objets au niveau des pixels précises et temporellement cohérentes sur une séquence vidéo, spécifiquement conçues pour relever les défis difficiles liés à la segmentation de plusieurs objets au fil d'une séquence vidéo. Notre approche dépasse tous les résultats précédents de l'état de l'art sur le benchmark DAVIS 2017 de segmentation d'objets vidéo avec un score moyen J & F de 71,6 sur l'ensemble test-dev, et obtient la première place à la fois au Défi de Segmentation d'Objets Vidéo DAVIS 2018 et au Premier Défi Large-échelle de Segmentation d'Objets Vidéo YouTube-VOS.