il y a 2 mois

Il existe de nombreuses explications cohérentes des données non étiquetées : pourquoi vous devriez faire une moyenne

Ben Athiwaratkun; Marc Finzi; Pavel Izmailov; Andrew Gordon Wilson

Résumé

Actuellement, les approches les plus réussies pour l'apprentissage semi-supervisé sont basées sur la régularisation de cohérence, par laquelle un modèle est formé pour être robuste aux petites perturbations de ses entrées et de ses paramètres. Pour comprendre la régularisation de cohérence, nous explorons conceptuellement comment la géométrie de la fonction de perte interagit avec les procédures d'entraînement. La perte de cohérence améliore considérablement les performances de généralisation par rapport à l'entraînement supervisé seul ; cependant, nous montrons que le gradient stochastique descendant (SGD) peine à converger sur la perte de cohérence et continue à effectuer des pas importants qui entraînent des modifications des prédictions sur les données de test. Motivés par ces observations, nous proposons d'entraîner les méthodes basées sur la cohérence avec l'Averaging des Poids Stochastiques (APS) (Stochastic Weight Averaging), une approche récente qui moyenne les poids le long de la trajectoire du SGD avec un calendrier d'apprentissage modifié. Nous proposons également fast-APS, qui accélère davantage la convergence en moyennant plusieurs points au sein de chaque cycle d'un calendrier d'apprentissage cyclique. Avec l'averaging des poids, nous obtenons les meilleurs résultats connus en apprentissage semi-supervisé sur CIFAR-10 et CIFAR-100, pour diverses quantités de données d'entraînement étiquetées. Par exemple, nous atteignons une erreur de 5,0 % sur CIFAR-10 avec seulement 4000 étiquettes, contre le meilleur résultat précédent dans la littérature de 6,3 %.