Deep Clustering pour l'Apprentissage Non Supervisé des Caractéristiques Visuelles

Le regroupement (clustering) est une classe de méthodes d'apprentissage non supervisé qui a été largement appliquée et étudiée en vision par ordinateur. Peu de travaux ont été consacrés à son adaptation pour l'entraînement de bout en bout des caractéristiques visuelles sur des jeux de données à grande échelle. Dans ce travail, nous présentons DeepCluster, une méthode de regroupement qui apprend conjointement les paramètres d'un réseau neuronal et les affectations de clusters des caractéristiques résultantes. DeepCluster itère le groupement des caractéristiques à l'aide d'un algorithme de regroupement standard, k-means, et utilise les affectations ultérieures comme supervision pour mettre à jour les poids du réseau. Nous appliquons DeepCluster à l'entraînement non supervisé de réseaux neuronaux convolutifs sur de grands jeux de données tels qu'ImageNet et YFCC100M. Le modèle résultant dépasse significativement l'état actuel de l'art sur tous les benchmarks standards.