Apprentissage auto-supervisé pour le clustering d'images non supervisées à grande échelle

L'apprentissage non supervisé a toujours été attractif pour les chercheurs et les praticiens en apprentissage automatique, leur permettant d'éviter un processus coûteux et complexe de labellisation des données. Cependant, l'apprentissage non supervisé de données complexes est un défi, et même les meilleures approches montrent des performances beaucoup plus faibles que leurs homologues supervisés. L'apprentissage profond auto-supervisé est devenu un outil puissant pour l'apprentissage de représentations en vision par ordinateur. Toutefois, ces méthodes n'ont pas été évaluées dans un cadre entièrement non supervisé. Dans cet article, nous proposons un schéma simple pour la classification non supervisée basée sur des représentations auto-supervisées. Nous évaluons l'approche proposée avec plusieurs méthodes auto-supervisées récentes, montrant qu'elle obtient des résultats compétitifs pour la classification d'ImageNet (39 % de précision sur ImageNet avec 1000 clusters et 46 % avec surclustering). Nous suggérons d'ajouter l'évaluation non supervisée à l'ensemble des benchmarks standards pour l'apprentissage auto-supervisé. Le code est disponible à l'adresse suivante : https://github.com/Randl/kmeans_selfsuper