Ensemble Temporel pour l'Apprentissage Semi-Supervisé

Dans cet article, nous présentons une méthode simple et efficace pour l'entraînement de réseaux de neurones profonds dans un cadre semi-supervisé où seule une petite partie des données d'entraînement est étiquetée. Nous introduisons la technique de self-ensembling, qui consiste à former une prédiction par consensus des étiquettes inconnues en utilisant les sorties du réseau en cours d'entraînement sur différentes époques, et plus important encore, sous différentes conditions de régularisation et d'augmentation des entrées. Cette prédiction par consensus peut être considérée comme un meilleur prédicteur des étiquettes inconnues que la sortie du réseau à l'époque d'entraînement la plus récente, et peut donc être utilisée comme cible pour l'entraînement. En utilisant notre méthode, nous établissons de nouveaux records pour deux benchmarks standard de l'apprentissage semi-supervisé : nous réduisons le taux d'erreur de classification (non augmenté) de 18,44 % à 7,05 % dans SVHN avec 500 étiquettes, et de 18,63 % à 16,55 % dans CIFAR-10 avec 4000 étiquettes. Avec l'utilisation des augmentations standards, ces taux sont encore améliorés pour atteindre respectivement 5,12 % et 12,16 %. De plus, nous obtenons une amélioration claire de la précision de classification dans CIFAR-100 en utilisant des images aléatoires du dataset Tiny Images comme entrées non étiquetées supplémentaires pendant l'entraînement. Enfin, nous démontrons une bonne tolérance aux étiquettes incorrectes.