SCAN : Apprendre à Classer des Images sans Étiquettes

Peut-on regrouper automatiquement des images en clusters sémantiquement pertinents en l'absence d'annotations de vérité terrain ? La tâche de classification d'images non supervisée reste un défi important et ouvert dans le domaine de la vision par ordinateur. Plusieurs approches récentes ont tenté de résoudre ce problème de manière end-to-end. Dans cet article, nous nous écartons des travaux récents et proposons une approche en deux étapes où l'apprentissage des caractéristiques et le clustering sont dissociés. Premièrement, une tâche auto-supervisée d'apprentissage de représentation est utilisée pour obtenir des caractéristiques sémantiquement significatives. Deuxièmement, nous utilisons les caractéristiques obtenues comme a priori dans une approche de clustering apprenante. En procédant ainsi, nous supprimons la capacité du clustering à dépendre des caractéristiques de bas niveau, qui est présente dans les approches actuelles d'apprentissage end-to-end. L'évaluation expérimentale montre que nous surpassons largement les méthodes de pointe, notamment avec +26,6 % sur CIFAR10, +25,0 % sur CIFAR100-20 et +21,3 % sur STL10 en termes de précision de classification. De plus, notre méthode est la première à bien performer sur un grand ensemble de données pour la classification d'images. En particulier, nous obtenons des résultats prometteurs sur ImageNet et surpassons plusieurs méthodes d'apprentissage semi-supervisé dans le régime à faibles données sans utiliser aucune annotation de vérité terrain. Le code est rendu publiquement disponible à l'adresse https://github.com/wvangansbeke/Unsupervised-Classification.