UniGAP : une approche universelle et adaptative de suréchantillonnage de graphe pour atténuer le sur-lissage dans les tâches de classification de nœuds

Dans le domaine des graphes, les réseaux de neurones profonds fondés sur les réseaux de propagation de messages (MPNN) ou les Transformers de graphes souffrent fréquemment d’un sur-lissage des caractéristiques des nœuds, ce qui limite leur capacité expressive. De nombreuses techniques de suréchantillonnage impliquant la manipulation de nœuds et d’arêtes ont été proposées afin de atténuer ce problème. Toutefois, ces méthodes nécessitent souvent une intervention manuelle importante, entraînant des performances sous-optimales et manquant d’une stratégie d’intégration universelle. Dans cette étude, nous introduisons UniGAP, une technique universelle et adaptative de suréchantillonnage de graphes. Elle propose un cadre général pour le suréchantillonnage de graphes, intégrant la plupart des méthodes actuelles comme variantes. En outre, UniGAP agit comme un composant plug-in pouvant être intégré de manière fluide et adaptative aux GNN existants, améliorant ainsi leurs performances tout en atténuant le problème du sur-lissage. À travers des expériences étendues, UniGAP montre des améliorations significatives par rapport aux méthodes heuristiques d’augmentation de données sur divers jeux de données et métriques. Nous analysons l’évolution de la structure du graphe sous UniGAP, identifions les goulets d’étranglement clés où se produit le sur-lissage, et fournissons des éclairages sur la manière dont UniGAP résout ce problème. Enfin, nous démontrons le potentiel de combiner UniGAP avec des modèles de langage à grande échelle (LLM) afin d’améliorer davantage les performances sur les tâches en aval. Notre code est disponible à l’adresse suivante : https://github.com/wangxiaotang0906/UniGAP