HyperAIHyperAI

Command Palette

Search for a command to run...

Il existe de nombreuses explications cohérentes des données non étiquetées : pourquoi vous devriez faire une moyenne

Ben Athiwaratkun; Marc Finzi; Pavel Izmailov; Andrew Gordon Wilson

Résumé

Actuellement, les approches les plus réussies pour l'apprentissage semi-supervisé sont basées sur la régularisation de cohérence, par laquelle un modèle est formé pour être robuste aux petites perturbations de ses entrées et de ses paramètres. Pour comprendre la régularisation de cohérence, nous explorons conceptuellement comment la géométrie de la fonction de perte interagit avec les procédures d'entraînement. La perte de cohérence améliore considérablement les performances de généralisation par rapport à l'entraînement supervisé seul ; cependant, nous montrons que le gradient stochastique descendant (SGD) peine à converger sur la perte de cohérence et continue à effectuer des pas importants qui entraînent des modifications des prédictions sur les données de test. Motivés par ces observations, nous proposons d'entraîner les méthodes basées sur la cohérence avec l'Averaging des Poids Stochastiques (APS) (Stochastic Weight Averaging), une approche récente qui moyenne les poids le long de la trajectoire du SGD avec un calendrier d'apprentissage modifié. Nous proposons également fast-APS, qui accélère davantage la convergence en moyennant plusieurs points au sein de chaque cycle d'un calendrier d'apprentissage cyclique. Avec l'averaging des poids, nous obtenons les meilleurs résultats connus en apprentissage semi-supervisé sur CIFAR-10 et CIFAR-100, pour diverses quantités de données d'entraînement étiquetées. Par exemple, nous atteignons une erreur de 5,0 % sur CIFAR-10 avec seulement 4000 étiquettes, contre le meilleur résultat précédent dans la littérature de 6,3 %.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Il existe de nombreuses explications cohérentes des données non étiquetées : pourquoi vous devriez faire une moyenne | Articles | HyperAI