FEELVOS : Apprentissage Rapide de Plongements de Bout en Bout pour la Segmentation d'Objets Vidéo

De nombreuses méthodes récentes réussies pour le segmentation d'objets dans les vidéos (VOS) sont excessivement complexes, dépendent fortement d'un ajustement fin sur la première image, et/ou sont lentes, ce qui limite leur utilité pratique. Dans cette étude, nous proposons FEELVOS comme une méthode simple et rapide qui ne nécessite pas d'ajustement fin. Pour segmenter une vidéo, FEELVOS utilise pour chaque image un plongement sémantique pixel par pixel associé à un mécanisme de correspondance globale et locale afin de transférer des informations de la première image et de l'image précédente de la vidéo à l'image actuelle. Contrairement aux travaux antérieurs, notre plongement n'est utilisé que comme guide interne d'un réseau convolutif. Notre nouvelle tête de segmentation dynamique nous permet d'entraîner le réseau, y compris le plongement, en bout-à-bout pour la tâche de segmentation d'objets multiples avec une perte de cross-entropy. Nous atteignons un nouveau niveau d'excellence dans la segmentation d'objets dans les vidéos sans ajustement fin avec une mesure J&F de 71,5 % sur l'ensemble de validation DAVIS 2017. Nous mettons notre code et nos modèles à disposition sur https://github.com/tensorflow/models/tree/master/research/feelvos.