Sur la régularisation Mixup

Le Mixup est une technique d’augmentation de données qui génère de nouveaux exemples en formant des combinaisons convexes de points d’entraînement et de leurs étiquettes. Cette méthode simple a empiriquement démontré son efficacité pour améliorer la précision de nombreux modèles d’avant-garde dans diverses configurations et applications, mais les raisons de cette réussite empirique restent mal comprises. Dans cet article, nous faisons une avancée significative vers la compréhension des fondements théoriques du Mixup en clarifiant ses effets régularisants. Nous montrons que le Mixup peut être interprété comme un estimateur de minimisation de risque empirique classique soumis à une combinaison de transformation des données et de perturbation aléatoire des données transformées. Cette nouvelle interprétation nous permet d’extraire deux insights essentiels. Premièrement, la transformation des données suggère qu’au moment de l’évaluation, un modèle entraîné avec Mixup devrait également être appliqué à des données transformées — une modification d’une seule ligne de code que nous validons empiriquement, entraînant une amélioration à la fois de la précision et de la calibration des prédictions. Deuxièmement, nous démontrons comment la perturbation aléatoire introduite par cette nouvelle interprétation du Mixup induit plusieurs schémas régularisants connus, notamment le lissage des étiquettes et la réduction de la constante de Lipschitz de l’estimateur. Ces schémas interagissent de manière synergique, produisant un effet régularisant auto-calibré et efficace, qui prévient à la fois le surajustement et les prédictions trop confiantes. Nous corroborons notre analyse théorique par des expériences qui soutiennent pleinement nos conclusions.