Apprentissage non supervisé de caractéristiques visuelles par confrontation des affectations de clusters

Les représentations d’images non supervisées ont considérablement réduit l’écart avec l’apprentissage préalable supervisé, notamment grâce aux récents progrès des méthodes d’apprentissage contrastif. Ces méthodes contrastives fonctionnent généralement en ligne et reposent sur un grand nombre de comparaisons explicites entre paires de caractéristiques, ce qui pose des défis computationnels importants. Dans cet article, nous proposons un algorithme en ligne, SwAV, qui exploite les avantages des méthodes contrastives sans nécessiter de calculer des comparaisons entre paires de caractéristiques. Plus précisément, notre méthode effectue simultanément un regroupement (clustering) des données tout en imposant une cohérence entre les affectations de clusters obtenues pour différentes transformations (ou vues) de la même image, plutôt que de comparer directement les caractéristiques comme dans les méthodes contrastives classiques. En d’autres termes, nous utilisons un mécanisme de prédiction échangée où l’on prédit l’affectation de cluster d’une vue à partir de la représentation d’une autre vue. Notre méthode peut être entraînée avec des tailles de batch grandes ou petites, et peut être mise à l’échelle à des quantités illimitées de données. Par rapport aux méthodes contrastives précédentes, notre approche est plus efficace en mémoire, car elle ne nécessite ni une grande mémoire tampon (memory bank), ni un réseau à momentum spécial. En outre, nous proposons également une nouvelle stratégie d’augmentation de données, appelée multi-crop, qui utilise un mélange de vues à différentes résolutions à la place de deux vues à résolution complète, sans augmenter sensiblement les besoins en mémoire ou en calcul. Nous validons nos résultats en atteignant une précision top-1 de 75,3 % sur ImageNet avec ResNet-50, tout en dépassant l’apprentissage préalable supervisé sur toutes les tâches de transfert étudiées.