Les Transformers perform-ils réellement mal pour la représentation des graphes ?

L'architecture Transformer est devenue un choix prédominant dans de nombreux domaines, tels que le traitement du langage naturel et la vision par ordinateur. Cependant, elle n'a pas atteint des performances compétitives sur les classements populaires de prédiction au niveau des graphes comparativement aux variantes principales des GNN (Graph Neural Networks). Par conséquent, il reste un mystère de savoir comment les Transformers pourraient bien performer pour l'apprentissage de représentations de graphes. Dans cet article, nous résolvons ce mystère en présentant Graphormer, qui repose sur l'architecture Transformer standard et peut obtenir d'excellents résultats sur une large gamme de tâches d'apprentissage de représentations de graphes, en particulier sur le récent défi OGB à grande échelle (OGB Large-Scale Challenge). Notre principale intuition pour l'utilisation des Transformers dans les graphes est la nécessité d'encoder efficacement les informations structurelles d'un graphe dans le modèle. À cette fin, nous proposons plusieurs méthodes d'encodage structurel simples mais efficaces pour aider Graphormer à modéliser mieux les données structurées en graphe. De plus, nous caractérisons mathématiquement la puissance expressive de Graphormer et montrons que, grâce à nos méthodes d'encodage des informations structurelles des graphes, de nombreuses variantes populaires des GNN peuvent être considérées comme des cas particuliers de Graphormer.