CrOC : Clustering en ligne multi-vues pour l'apprentissage de représentations visuelles denses

L'apprentissage de représentations visuelles denses sans étiquettes est une tâche ardue, et cela l'est encore plus lorsque les données sont centrées sur des scènes. Nous proposons de relever ce défi en introduisant un objectif de cohérence inter-vues avec un mécanisme de clustering en ligne (CrOC) pour découvrir et segmenter la sémantique des vues. En l'absence de priorités définies manuellement, la méthode résultante est plus généralisable et n'exige pas une étape de prétraitement fastidieuse. Plus important encore, l'algorithme de clustering opère conjointement sur les caractéristiques des deux vues, éludant ainsi élégamment le problème du contenu non représenté dans les deux vues et le couplage ambigu des objets d'un découpage à l'autre. Nous démontrons d'excellentes performances sur des tâches de transfert de segmentation linéaire et non supervisée sur diverses bases de données, ainsi que pour la segmentation d'objets vidéo. Notre code et nos modèles pré-entraînés sont disponibles au public sur https://github.com/stegmuel/CrOC.