PiCIE : Segmentations sémantiques non supervisées utilisant l'invariance et l'équivalence dans le clustering

Nous présentons un nouveau cadre pour la segmentation sémantique sans annotations, basé sur le regroupement (clustering). Les méthodes de clustering disponibles en standard sont limitées à des images soigneusement préparées, à étiquetage unique et centrées sur les objets, alors que les données du monde réel sont majoritairement non préparées, multi-étiquetées et centrées sur la scène. Nous étendons le clustering des images aux pixels, en attribuant une appartenance à des clusters distincts pour différentes instances au sein de chaque image. Toutefois, se fier uniquement à la similarité des caractéristiques au niveau des pixels échoue à apprendre des concepts sémantiques de haut niveau et conduit à un surajustement aux indices visuels de bas niveau. Nous proposons une méthode qui intègre la cohérence géométrique comme biais inductif afin d’apprendre l’invariance et l’équivariance face aux variations photométriques et géométriques. Grâce à notre nouvelle fonction objectif, notre cadre peut apprendre des concepts sémantiques de haut niveau. Notre méthode, PiCIE (Pixel-level feature Clustering using Invariance and Equivariance), est la première à permettre la segmentation des catégories « things » et « stuff » sans aucun réglage de hyperparamètres ni prétraitement spécifique à la tâche. Elle surpasser largement les méthodes de référence sur COCO et Cityscapes, avec une amélioration de +17,5 % en précision et +4,5 % en mIoU. Nous démontrons que PiCIE fournit une meilleure initialisation pour l’entraînement supervisé classique. Le code est disponible à l’adresse suivante : https://github.com/janghyuncho/PiCIE.