Les enseignants sévères sont de meilleurs modèles : les cibles de cohérence pondérées par la moyenne améliorent les résultats de l'apprentissage profond semi-supervisé.

La méthode récemment proposée appelée Temporal Ensembling a obtenu des résultats de pointe dans plusieurs benchmarks d'apprentissage semi-supervisé. Elle maintient une moyenne mobile exponentielle des prédictions de labels sur chaque exemple d'entraînement et pénalise les prédictions qui sont incohérentes avec cette cible. Cependant, comme les cibles ne changent qu'une fois par époque, le Temporal Ensembling devient peu maniable lorsqu'il s'agit d'apprendre à partir de grands ensembles de données. Pour surmonter ce problème, nous proposons Mean Teacher, une méthode qui moyenne les poids du modèle au lieu des prédictions de labels. Un avantage supplémentaire est que Mean Teacher améliore la précision des tests et permet l'entraînement avec moins de labels que le Temporal Ensembling. Sans modifier l'architecture du réseau, Mean Teacher atteint un taux d'erreur de 4,35 % sur SVHN avec 250 labels, surpassant ainsi le Temporal Ensembling entraîné avec 1000 labels. Nous montrons également qu'une bonne architecture de réseau est cruciale pour les performances. En combinant Mean Teacher et les Réseaux Résiduels (Residual Networks), nous améliorons l'état de l'art sur CIFAR-10 avec 4000 labels, passant de 10,55 % à 6,28 %, et sur ImageNet 2012 avec 10 % des labels, passant de 35,24 % à 9,11 %.