Mixup : Au-delà de la minimisation du risque empirique

Les grands réseaux de neurones profonds sont puissants, mais ils présentent des comportements indésirables tels que la mémorisation et la sensibilité aux exemples adverses. Dans ce travail, nous proposons mixup, un principe d'apprentissage simple pour atténuer ces problèmes. En substance, mixup entraîne un réseau de neurones sur des combinaisons convexes de paires d'exemples et de leurs étiquettes. En procédant ainsi, mixup régularise le réseau de neurones pour favoriser un comportement linéaire simple entre les exemples d'entraînement. Nos expériences sur les ensembles de données ImageNet-2012, CIFAR-10, CIFAR-100, Google Commands et UCI montrent que mixup améliore la généralisation des architectures de réseaux de neurones les plus avancées actuellement. Nous constatons également que mixup réduit la mémorisation des étiquettes corrompues, augmente la robustesse face aux exemples adverses et stabilise l'entraînement des réseaux adverses génératifs (generative adversarial networks).