il y a 11 jours

Segmentation sémantique non supervisée par distillation de correspondances de caractéristiques

Mark Hamilton, Zhoutong Zhang, Bharath Hariharan, Noah Snavely, William T. Freeman

Résumé

La segmentation sémantique non supervisée vise à découvrir et localiser des catégories sémantiquement pertinentes au sein de corpora d’images sans aucune forme d’annotation. Pour résoudre cette tâche, les algorithmes doivent produire des caractéristiques pour chaque pixel, qui soient à la fois sémantiquement significatives et suffisamment compactes pour former des clusters distincts. Contrairement aux travaux antérieurs qui atteignaient cet objectif via un cadre end-to-end unique, nous proposons de séparer l’apprentissage des caractéristiques de la compactification des clusters. Expérimentalement, nous montrons que les cadres actuels d’apprentissage non supervisé des caractéristiques génèrent déjà des représentations denses dont les corrélations sont sémantiquement cohérentes. Cette observation motive la conception de STEGO (Self-supervised Transformer with Energy-based Graph Optimization), un nouveau cadre qui transforme les caractéristiques non supervisées en étiquettes sémantiques discrètes de haute qualité. Au cœur de STEGO se trouve une nouvelle fonction de perte contrastive qui encourage les caractéristiques à former des clusters compacts tout en préservant leurs relations au sein du corpus. STEGO obtient une amélioration significative par rapport à l’état de l’art précédent, sur les défis de segmentation sémantique CocoStuff (+14 mIoU) et Cityscapes (+9 mIoU).