Clustering par maximisation d'information via auto-étiquetage multi-vues

Le regroupement d’images est une tâche particulièrement difficile en vision par ordinateur, visant à générer des annotations sans supervision humaine. Les avancées récentes se concentrent sur l’utilisation de stratégies d’apprentissage auto-supervisé pour le regroupement d’images, en apprenant d’abord des sémantiques pertinentes, puis en regroupant les représentations d’images. Ces algorithmes à plusieurs phases augmentent toutefois le temps de calcul, et leur performance finale dépend fortement de la première étape. En étendant l’approche auto-supervisée, nous proposons une nouvelle méthode de regroupement en une seule phase, qui apprend simultanément des représentations significatives et attribue les annotations correspondantes. Cela est réalisé en intégrant une représentation discrète dans le cadre auto-supervisé via un réseau classificateur. Plus précisément, l’objectif de regroupement proposé repose sur l’information mutuelle et vise à maximiser la dépendance entre la représentation discrète intégrée et une distribution de probabilité discrète. Cette dernière est obtenue grâce au processus auto-supervisé en comparant la représentation latente apprise à un ensemble de prototypes entraînables. Pour améliorer les performances d’apprentissage du classificateur, nous appliquons conjointement l’information mutuelle sur plusieurs vues à différentes échelles. Nos résultats expérimentaux montrent que le cadre proposé dépasse les techniques de pointe, atteignant une précision moyenne de 89,1 % et 49,0 % respectivement sur les jeux de données CIFAR-10 et CIFAR-100/20. Enfin, la méthode proposée démontre également une robustesse attractive aux réglages des paramètres, ce qui la rend directement applicable à d’autres jeux de données.