Segmentation d'objets vidéo sans information temporelle

La segmentation d'objets dans les vidéos et, plus généralement, le traitement des vidéos ont historiquement été dominés par des méthodes s'appuyant sur la cohérence temporelle et la redondance entre les images consécutives d'une vidéo. Lorsque cette continuité temporelle est soudainement rompue, par exemple lorsque l'objet est masqué ou que certaines images manquent dans une séquence, les résultats de ces méthodes peuvent se détériorer considérablement ou ne pas produire de résultat du tout. Cet article explore l'approche orthogonale consistant à traiter chaque image indépendamment, c'est-à-dire en ignorant les informations temporelles. Plus particulièrement, il aborde la tâche de segmentation d'objets dans les vidéos en mode semi-supervisé : la séparation d'un objet du fond dans une vidéo, étant donné son masque dans la première image. Nous présentons Semantic One-Shot Video Object Segmentation (OSVOS-S), basée sur une architecture de réseau neuronal entièrement convolutif capable de transférer successivement des informations sémantiques génériques apprises sur ImageNet à la tâche de segmentation du premier plan, puis à l'apprentissage de l'apparence d'un seul objet annoté de la séquence de test (d'où le terme "one shot"). Nous montrons que lorsque les informations sémantiques au niveau des instances sont combinées efficacement, elles peuvent améliorer considérablement les résultats de notre méthode précédente, OSVOS. Nous menons des expériences sur deux bases de données récentes pour la segmentation vidéo, qui démontrent que OSVOS-S est à la fois la méthode la plus rapide et la plus précise parmi celles existantes.