FMix : Amélioration de l'augmentation de données par échantillons mixtes

L’augmentation de données à échantillons mixtes (Mixed Sample Data Augmentation, MSDA) a récemment suscité un intérêt croissant, avec l’apparition de nombreuses variantes réussies telles que MixUp et CutMix. En étudiant l’information mutuelle entre les fonctions apprises par un VAE sur les données initiales et sur les données augmentées, nous montrons que MixUp déforme les fonctions apprises d’une manière que CutMix ne fait pas. Nous confirmons cette observation en démontrant que MixUp agit comme une forme d’entraînement adversarial, augmentant ainsi la robustesse aux attaques telles que Deep Fool ou le bruit uniforme, qui produisent des exemples similaires à ceux générés par MixUp. Nous soutenons que cette déformation empêche les modèles d’apprendre des caractéristiques spécifiques aux échantillons présents dans les données, ce qui favorise la performance de généralisation. En revanche, nous proposons que CutMix fonctionne davantage comme une augmentation traditionnelle, améliorant les performances en réduisant la mémoire des données sans déformer la distribution. Toutefois, nous arguons qu’une MSDA fondée sur CutMix, mais qui utilise des masques de forme arbitraire au lieu de masques carrés uniquement, pourrait encore mieux prévenir la mémoire tout en préservant la distribution des données. À cet effet, nous proposons FMix, une méthode de MSDA qui utilise des masques binaires aléatoires obtenus en appliquant un seuil à des images de basse fréquence échantillonnées dans l’espace de Fourier. Ces masques aléatoires peuvent prendre une grande variété de formes et sont adaptables à des données unidimensionnelles, bidimensionnelles et tridimensionnelles. FMix améliore les performances par rapport à MixUp et CutMix, sans allonger le temps d’entraînement, pour plusieurs modèles sur divers jeux de données et configurations de problèmes, atteignant un nouveau record d’état de l’art pour un seul modèle sur CIFAR-10 sans données externes. Enfin, nous montrons qu’une conséquence de la différence entre les méthodes d’interpolation comme MixUp et les méthodes de masquage comme FMix est qu’elles peuvent être combinées pour obtenir une performance encore plus élevée. Le code pour toutes les expériences est disponible à l’adresse suivante : https://github.com/ecs-vlc/FMix.