Apprentissage auto-supervisé par l’estimation des distributions de classes jumelles

Nous présentons TWIST, une méthode simple et théoriquement explicable d'apprentissage de représentation auto-supervisée qui classe des ensembles de données non étiquetés à grande échelle de manière end-to-end. Nous utilisons un réseau siamais terminé par une opération softmax pour produire deux distributions de classes jumelles à partir de deux images augmentées. Sans supervision, nous imposons la cohérence entre les distributions de classes des différentes augmentations. Cependant, minimiser simplement la divergence entre les augmentations entraînera des solutions effondrées, c'est-à-dire la production d'une même distribution de probabilités de classe pour toutes les images. Dans ce cas, aucune information sur l'image d'entrée n'est conservée. Pour résoudre ce problème, nous proposons de maximiser l'information mutuelle entre l'entrée et les prédictions de classe. Plus précisément, nous minimisons l'entropie de la distribution pour chaque échantillon afin que la prédiction de classe pour chaque échantillon soit affirmée et maximisons l'entropie de la distribution moyenne afin que les prédictions des différents échantillons soient diverses. De cette façon, TWIST peut naturellement éviter les solutions effondrées sans avoir recours à des designs spécifiques tels qu'un réseau asymétrique, une opération stop-gradient ou un encodeur à moment (momentum encoder). En conséquence, TWIST surpasse les méthodes d'avant-garde sur une large gamme de tâches. En particulier, TWIST se distingue par ses performances exceptionnelles en apprentissage semi-supervisé, atteignant une précision top-1 de 61,2% avec seulement 1% des étiquettes ImageNet en utilisant un ResNet-50 comme architecture principale (backbone), surpassant ainsi les meilleurs résultats précédents avec une amélioration absolue de 6,2%. Les codes source et les modèles pré-entraînés sont disponibles sur : https://github.com/bytedance/TWIST