ClevrTex : Une base de référence riche en textures pour la segmentation non supervisée de multiples objets

Récemment, il y a eu une augmentation des méthodes visant à décomposer et segmenter les scènes en plusieurs objets de manière non supervisée, c'est-à-dire la segmentation multi-objet non supervisée. La réalisation d'une telle tâche est un objectif de longue date de la vision par ordinateur, offrant la possibilité de raisonnement au niveau des objets sans nécessiter des annotations denses pour entraîner les modèles de segmentation. Malgré des progrès significatifs, les modèles actuels sont développés et entraînés sur des scènes visuellement simples représentant des objets monochromes sur des fonds uniformes. Le monde naturel, en revanche, est visuellement complexe avec des aspects perturbateurs tels que des textures variées et des effets d'éclairage compliqués. Dans cette étude, nous présentons un nouveau benchmark appelé ClevrTex, conçu comme le défi suivant pour comparer, évaluer et analyser les algorithmes. ClevrTex présente des scènes synthétiques avec diverses formes, textures et matériaux photomappés, créées à l'aide de techniques de rendu basées sur la physique. Il comprend 50 000 exemples représentant 3 à 10 objets disposés sur un fond, créés à partir d'un catalogue de 60 matériaux, ainsi qu'un ensemble de tests supplémentaire comprenant 10 000 images créées à l'aide de 25 matériaux différents. Nous évaluons un grand nombre de modèles récents de segmentation multi-objet non supervisée sur ClevrTex et constatons que toutes les approches de pointe échouent à apprendre de bonnes représentations dans le contexte texturé, malgré des performances impressionnantes sur des données plus simples. Nous avons également créé des variantes du jeu de données ClevrTex, en contrôlant différents aspects de la complexité des scènes, afin d'examiner les lacunes individuelles des approches actuelles. Le jeu de données et le code sont disponibles à l'adresse https://www.robots.ox.ac.uk/~vgg/research/clevrtex.