il y a 17 jours

SWAD : Généralisation de domaine par recherche de minima plats

Junbum Cha, Sanghyuk Chun, Kyungjae Lee, Han-Cheol Cho, Seunghyun Park, Yunsung Lee, Sungrae Park

Résumé

Les méthodes de généralisation domaine-général (DG) visent à atteindre une bonne généralisation sur un domaine cible inconnu à l’aide uniquement de données d’entraînement provenant de domaines sources. Bien qu’un grand nombre de méthodes DG aient été proposées, une étude récente montre qu’au sein d’un protocole d’évaluation équitable, appelé DomainBed, l’approche simple de minimisation de risque empirique (ERM) se compare favorablement, voire surpasser, les méthodes antérieures. Malheureusement, la résolution directe de l’ERM sur une fonction de perte complexe et non convexe peut facilement conduire à une généralisation sous-optimale, en cherchant des minima aigus. Dans ce travail, nous montrons théoriquement que la recherche de minima plats permet de réduire l’écart de généralisation entre domaines. Nous proposons également une méthode simple mais efficace, nommée Stochastic Weight Averaging Densely (SWAD), pour identifier de tels minima plats. SWAD trouve des minima plus plats et souffre moins du surapprentissage que l’approche SWA classique, grâce à une stratégie de prise d’échantillons aléatoires des poids dense et sensible au surapprentissage. SWAD atteint des performances de pointe sur cinq benchmarks DG, à savoir PACS, VLCS, OfficeHome, TerraIncognita et DomainNet, avec une amélioration moyenne significative de +1,6 % en précision hors-domaine. Nous comparons également SWAD à des méthodes classiques de généralisation, telles que l’augmentation de données et les méthodes de régularisation par consistance, afin de démontrer que les gains de performance remarquables proviennent bien de la recherche de minima plats, et non d’une meilleure généralisation au sein du domaine. Enfin, SWAD est facilement intégrable aux méthodes DG existantes sans modification : l’association de SWAD à une méthode DG préexistante améliore encore davantage les performances en DG. Le code source est disponible à l’adresse suivante : https://github.com/khanrc/swad.