Le Split Compte : Méthodes de Minima Plats pour Améliorer les Performances des GNNs

Lors de l'entraînement d'un réseau de neurones, celui-ci est optimisé à l'aide des données d'entraînement disponibles, dans l'espoir qu'il généralise efficacement aux données de test nouvelles ou inédites. À valeur absolue égale, un minimum plat dans la surface de perte est généralement supposé généraliser mieux qu'un minimum abrupt. Les méthodes visant à identifier des minima plats ont principalement été étudiées pour des données indépendantes et identiquement distribuées (i.i.d.), telles que les images. En revanche, les graphes sont intrinsèquement non i.i.d., car leurs sommets sont connectés par des arêtes. Nous étudions donc les méthodes de recherche de minima plats, ainsi que leurs combinaisons, dans le contexte de l'entraînement des réseaux de neurones sur graphes (GNN). Nous utilisons les architectures GCN et GAT, tout en étendant Graph-MLP pour qu'elle puisse gérer davantage de couches et des graphes plus volumineux. Des expériences sont menées sur des jeux de données de citations, de co-achats et de protéines, à la fois petits et grands, avec différentes partitions entraînement-test, dans les deux cadres d'apprentissage transductif et inductif. Les résultats montrent qu'en cas de partition aléatoire entraînement-test, les méthodes de minima plats peuvent améliorer les performances des modèles GNN de plus de 2 points. Conformément à Shchur et al., les partitions aléatoires sont essentielles pour une évaluation équitable des GNN, car d'autres partitions fixes, comme celle dite « Planetoid », introduisent un biais. Globalement, notre travail apporte des perspectives importantes pour améliorer et évaluer de manière équitable les méthodes de minima plats sur les GNN. Nous recommandons aux praticiens d'utiliser systématiquement des techniques de moyennage des poids, en particulier l'Average Weight Averaging (EWA) lorsqu'on applique l'arrêt anticipé (early stopping). Bien que ces techniques de moyennage ne soient pas toujours les plus performantes, elles sont moins sensibles aux hyperparamètres, ne nécessitent pas d'entraînement supplémentaire et laissent le modèle original inchangé. Le code source complet est disponible à l'adresse suivante : https://github.com/Foisunt/FMMs-in-GNNs.