Réseaux de neurones robustes par rapport à la distribution pour les décalages de groupe : importance de la régularisation pour la généralisation au pire cas

Les réseaux de neurones surparamétrés peuvent être hautement précis en moyenne sur un ensemble de test i.i.d., tout en échouant systématiquement sur des groupes atypiques de données (par exemple, en apprenant des corrélations spuriennes qui tiennent en moyenne mais pas dans ces groupes). L’optimisation robuste par rapport à la distribution (Distributionally Robust Optimization, DRO) permet d’apprendre des modèles qui minimisent plutôt la perte d’entraînement maximale sur un ensemble de groupes prédéfinis. Toutefois, nous constatons que l’application naïve de la DRO par groupe aux réseaux de neurones surparamétrés échoue : ces modèles peuvent s’ajuster parfaitement aux données d’entraînement, et tout modèle dont la perte moyenne d’entraînement tend vers zéro présente déjà une perte pire cas tendant également vers zéro. En réalité, la faible performance en pire cas provient d’un mauvais généralisation sur certains groupes. En associant les modèles DRO par groupe à une régularisation renforcée — une pénalité L2 plus forte que la normale ou un arrêt anticipé (early stopping) —, nous obtenons des améliorations substantielles de la précision sur le pire groupe, avec des gains de 10 à 40 points de pourcentage sur une tâche d’inférence sur le langage naturel et deux tâches d’image, tout en maintenant des précisions moyennes élevées. Nos résultats suggèrent que la régularisation est cruciale pour la généralisation sur le pire groupe dans le régime surparamétré, même si elle n’est pas nécessaire pour la généralisation moyenne. Enfin, nous introduisons un algorithme d’optimisation stochastique, accompagné de garanties de convergence, permettant d’entraîner efficacement des modèles DRO par groupe.