il y a 15 jours

Deeper-GXX : Approfondissement des GNN arbitraires

Lecheng Zheng, Dongqi Fu, Ross Maciejewski, Jingrui He

Résumé

Récemment, motivés par des applications réelles, un axe majeur de recherche dans les réseaux de neurones sur graphes (GNN) consiste à explorer des architectures plus profondes. Par exemple, la connectivité du graphe n’est pas toujours cohérente avec la distribution des étiquettes (par exemple, certains voisins les plus proches de certains nœuds n’appartiennent pas à la même catégorie). Dans ce cas, les GNN doivent empiler un plus grand nombre de couches afin de retrouver, sur des chemins plus longs, des voisins de même catégorie, afin de capturer efficacement les informations discriminantes par rapport aux classes. Toutefois, deux problèmes majeurs entravent les GNN profonds dans l’obtention d’une performance satisfaisante : le phénomène de disparition du gradient (vanishing gradient) et le sur-lissage (over-smoothing). D’un côté, l’empilement de couches rend le réseau de neurones difficile à entraîner, car les gradients des premières couches disparaissent progressivement. De plus, en tentant simplement de résoudre le problème du vanishing gradient dans les GNN, nous avons découvert un effet de « voisinage ombragé » (shading neighbors effect), c’est-à-dire que l’empilement inapproprié des couches déforme les informations non-IID des graphes et dégrade la performance des GNN. De l’autre côté, les GNN plus profonds agrègent une quantité considérable d’informations provenant de voisins communs, ce qui entraîne une surcharge de caractéristiques partagées entre les représentations des nœuds individuels, rendant ainsi les représentations finales peu discriminantes (c’est-à-dire trop lissées). Dans ce travail, pour la première fois, nous abordons simultanément ces deux problèmes afin de permettre l’exploitation de GNN plus profonds, et proposons Deeper-GXX, composé d’un module de connexion résiduelle à décroissance de poids (WDG-ResNet) et d’une fonction de perte contrastive guidée par la topologie (TGCL). Des expériences étendues sur des jeux de données réels démontrent que Deeper-GXX surpasser les meilleures méthodes baselines profondes actuelles.