Atténuation de l'incohérence entre les embeddings et l'affectation des classes dans la classification d'images non supervisée

La classification d’images non supervisée constitue une tâche difficile en vision par ordinateur. Les algorithmes basés sur l’apprentissage profond ont obtenu des résultats remarquables, notamment grâce à la dernière approche qui intègre des pertes unifiées issues des processus d’embedding et d’affectation de classes. Toutefois, comme ces deux processus ont des objectifs intrinsèquement différents, leur optimisation conjointe peut conduire à une solution sous-optimale. Pour surmonter cette limitation, nous proposons un nouvel algorithme en deux étapes, dans lequel un module d’embedding pré-entraîné est suivi par un module de raffinement qui effectue simultanément l’embedding et l’affectation de classes. Notre modèle dépasse les performances des méthodes de pointe (SOTA) sur plusieurs jeux de données, atteignant une précision très élevée de 81,0 % sur CIFAR-10 (soit une amélioration de 19,3 points de pourcentage), 35,3 % sur CIFAR-100-20 (gain de 9,6 points de pourcentage) et 66,5 % sur STL-10 (progrès de 6,9 points de pourcentage) dans des tâches non supervisées.