Amélioration de la généralisation en apprentissage fédéré par la recherche de minima plats

Les modèles entraînés dans des environnements fédérés souffrent souvent d’une dégradation des performances et échouent à généraliser, en particulier dans des scénarios hétérogènes. Dans ce travail, nous analysons ce comportement à travers la géométrie de la fonction de perte et le spectre des valeurs propres de la Hessienne, en reliant le manque de capacité de généralisation du modèle à la « piqueté » (sharpness) de la solution. Inspirés par des études antérieures reliant la piqueté de la surface de perte au fossé de généralisation, nous démontrons que i) l’entraînement local des clients avec une minimisation consciente de la piqueté (Sharpness-Aware Minimization, SAM) ou sa version adaptative (ASAM), combiné à ii) une moyenne des poids stochastiques (Stochastic Weight Averaging, SWA) effectuée côté serveur, permet d’améliorer de manière significative la généralisation en apprentissage fédéré et aide à réduire l’écart par rapport aux modèles centralisés. En cherchant des paramètres dans des voisinages présentant une perte uniformément faible, le modèle converge vers des minima plus plats, ce qui améliore considérablement sa capacité de généralisation, aussi bien dans des scénarios homogènes que hétérogènes. Des résultats expérimentaux confirment l’efficacité de ces optimiseurs sur une variété de jeux de données standard en vision (par exemple CIFAR10/100, Landmarks-User-160k, IDDA) et pour diverses tâches (classification à grande échelle, segmentation sémantique, généralisation de domaine).