DeepCut : Segmentation non supervisée à l'aide du clustering de réseaux neuronaux graphiques

La segmentation d'images est une tâche fondamentale en vision par ordinateur. L'annotation de données pour l'entraînement des méthodes supervisées peut être très laborieuse, ce qui motive l'utilisation de méthodes non supervisées. Les approches actuelles reposent souvent sur l'extraction de caractéristiques profondes à partir de réseaux pré-entraînés pour construire un graphe, puis des méthodes classiques de clustering comme k-means et les coupures normalisées sont appliquées comme étape de post-traitement. Cependant, cette approche réduit l'information de haute dimension codée dans les caractéristiques à des affinités scalaires paires. Pour remédier à cette limitation, cette étude introduit un réseau neuronal graphique (GNN) léger afin de remplacer les méthodes classiques de clustering tout en optimisant la même fonction objectif de clustering. Contrairement aux méthodes existantes, notre GNN prend en entrée à la fois les affinités paires entre les caractéristiques locales d'images et les caractéristiques brutes. Cette connexion directe entre les caractéristiques brutes et l'objectif de clustering nous permet d'effectuer implicitement une classification des clusters entre différents graphes, aboutissant à une segmentation sémantique partielle sans nécessiter d'étapes supplémentaires de post-traitement. Nous montrons comment les objectifs classiques de clustering peuvent être formulés comme fonctions de perte auto-supervisées pour entraîner un GNN de segmentation d'images. De plus, nous utilisons l'objectif du clustering par corrélation (CC) pour effectuer le clustering sans définir le nombre de clusters, permettant ainsi un clustering sans k. Nous appliquons la méthode proposée aux tâches de localisation d'objets, de segmentation et de segmentation sémantique partielle, surpassant les performances actuelles sur plusieurs benchmarks.