Attention Globale par Auto-Attention comme Remplacement de la Convolution sur Graphe

Nous proposons une extension de l'architecture des réseaux neuronaux transformateurs pour l'apprentissage général sur les graphes en ajoutant un chemin dédié pour l'information structurelle par paires, appelé canaux d'arêtes. Le cadre résultant, que nous nommons Transformateur de Graphe Augmenté par les Arêtes (EGT), peut accepter, traiter et produire directement des informations structurelles de forme arbitraire, ce qui est crucial pour un apprentissage efficace sur des données structurées en graphe. Notre modèle utilise exclusivement l'auto-attention globale comme mécanisme d'agrégation, plutôt que l'agrégation convolutive locale statique. Cela permet des interactions dynamiques à longue portée non contraintes entre les nœuds. De plus, les canaux d'arêtes permettent à l'information structurelle d'évoluer de couche en couche, et les tâches de prédiction sur les arêtes/liens peuvent être effectuées directement à partir des plongements de sortie de ces canaux. Nous vérifions les performances de l'EGT dans une large gamme d'expériences d'apprentissage sur les graphes utilisant des jeux de données de référence, où il surpasse les Réseaux Neuronaux de Graphe Convolutifs/à Passage de Messages. L'EGT établit un nouveau niveau d'excellence pour la tâche de régression quantico-chimique sur le jeu de données OGB-LSC PCQM4Mv2 contenant 3,8 millions de graphes moléculaires. Nos résultats suggèrent que l'agrégation basée sur l'auto-attention globale peut servir de remplacement flexible, adaptable et efficace à la convolution de graphe pour l'apprentissage général sur les graphes. Par conséquent, l'agrégation locale du voisinage convolutif n'est pas un biais inductif essentiel.