Segmentation sémantique non supervisée par contraste de propositions de masques d'objets

Apprendre des représentations sémantiques denses d’images sans supervision est un problème crucial en vision par ordinateur. Toutefois, malgré son importance, ce problème reste largement sous-exploré, à l’exception de quelques travaux qui se sont intéressés à la segmentation sémantique non supervisée sur des jeux de données à petite échelle et à un domaine visuel restreint. Dans cet article, nous proposons la première tentative systématique de résoudre ce problème sur des jeux de données traditionnellement utilisés dans le cadre supervisé. Pour y parvenir, nous introduisons un cadre en deux étapes qui intègre un prior de niveau intermédiaire prédéfini dans une fonction d’optimisation contrastive afin d’apprendre des embeddings pixel. Cette approche constitue une rupture marquée par rapport aux travaux existants, qui reposaient généralement sur des tâches proxy ou sur un regroupement end-to-end. Par ailleurs, nous mettons en avant l’importance d’un prior contenant des informations sur les objets ou leurs parties, et discutons plusieurs voies possibles pour obtenir un tel prior de manière non supervisée.Les évaluations expérimentales montrent que notre méthode présente plusieurs avantages clés par rapport aux approches existantes. Premièrement, les embeddings pixel appris peuvent être directement regroupés en catégories sémantiques à l’aide de K-Means sur PASCAL. Dans un cadre entièrement non supervisé, aucune précédente n’a réussi à résoudre la tâche de segmentation sémantique sur ce benchmark exigeant. Deuxièmement, nos représentations améliorent significativement des baselines fortes lorsqu’elles sont transférées à de nouveaux jeux de données, tels que COCO et DAVIS. Le code source est disponible.