il y a 11 jours

Auto-étiquetage par apprentissage simultané de regroupement et de représentation

Yuki Markus Asano, Christian Rupprecht, Andrea Vedaldi

Résumé

La combinaison du regroupement (clustering) et de l’apprentissage de représentation constitue l’une des approches les plus prometteuses pour l’apprentissage non supervisé des réseaux de neurones profonds. Toutefois, une approche naïve conduit à des problèmes d’apprentissage mal posés, entraînant des solutions dégénérées. Dans cet article, nous proposons une nouvelle formulation d’apprentissage rigoureuse et fondée sur des principes théoriques pour résoudre ces difficultés. Notre méthode repose sur la maximisation de l’information entre les étiquettes et les indices des données d’entrée. Nous démontrons que ce critère étend la minimisation classique de la cross-entropie à un problème de transport optimal, que nous résolvons efficacement pour des millions d’images d’entrée et des milliers d’étiquettes grâce à une variante rapide de l’algorithme de Sinkhorn-Knopp. La méthode obtenue permet de marquer automatiquement les données visuelles afin d’entraîner des représentations d’images hautement compétitives, sans nécessiter d’étiquettes manuelles. Notre approche atteint des performances de pointe dans l’apprentissage de représentations sur AlexNet et ResNet-50 pour les jeux de données SVHN, CIFAR-10, CIFAR-100 et ImageNet, et produit pour la première fois un AlexNet auto-supervisé surpassant la base de détection supervisée sur Pascal VOC. Le code source et les modèles sont disponibles.