Segmentation des objets en mouvement par une représentation couche centrée sur l'objet

L'objectif de cet article est de présenter un modèle capable de découvrir, suivre et segmenter plusieurs objets en mouvement dans une vidéo. Nous apportons quatre contributions : Premièrement, nous introduisons un modèle de segmentation centré sur les objets avec une représentation en couches ordonnées par profondeur. Ce modèle est mis en œuvre à l'aide d'une variante de l'architecture transformer qui intègre le flux optique, où chaque vecteur de requête spécifie un objet et sa couche pour l'ensemble de la vidéo. Le modèle peut efficacement découvrir plusieurs objets en mouvement et gérer les occultations mutuelles ; Deuxièmement, nous présentons un pipeline évolutif pour générer des données d'entraînement synthétiques multi-objets via des compositions de couches, ce qui permet d'entraîner le modèle proposé, réduisant considérablement les besoins en annotations laborieuses et soutenant la généralisation Sim2Real (de simulation à réalité) ; Troisièmement, nous menons des études d'ablation approfondies, montrant que le modèle est capable d'apprendre la permanence des objets et la cohérence temporelle de leur forme, ainsi que de prédire des masques de segmentation amodale ; Quatrièmement, nous évaluons notre modèle, formé uniquement sur des données synthétiques, sur des benchmarks standard de segmentation vidéo tels que DAVIS, MoCA, SegTrack et FBMS-59, obtenant des performances au niveau de l'état de l'art parmi les méthodes existantes ne reposant sur aucune annotation manuelle. Avec une adaptation au moment du test, nous observons une amélioration supplémentaire des performances.