Apprentissage de la segmentation d'objets vidéo à partir de vidéos non étiquetées

Nous proposons une nouvelle méthode de segmentation d'objets vidéo (VOS) qui aborde l'apprentissage des motifs d'objets à partir de vidéos non étiquetées, contrairement à la plupart des méthodes existantes qui reposent fortement sur des données étiquetées abondantes. Nous introduisons un cadre unifié d'apprentissage non supervisé/faiblement supervisé, appelé MuG, qui capture de manière exhaustive les propriétés intrinsèques de la VOS à plusieurs niveaux de granularité. Notre approche contribue à approfondir la compréhension des motifs visuels en VOS tout en réduisant significativement la charge d'annotation. Grâce à une architecture soigneusement conçue et à une capacité puissante d'apprentissage de représentations, notre modèle appris peut être appliqué à diverses configurations de VOS, notamment la VOS zéro-shot au niveau des objets, la VOS zéro-shot au niveau des instances et la VOS à une seule image d'exemple. Les expériences montrent des performances prometteuses dans ces configurations, ainsi que le potentiel de MuG à exploiter efficacement les données non étiquetées pour améliorer davantage la précision de segmentation.