Führen Transformatoren wirklich schlechte Leistungen bei der Graphendarstellung?

Die Transformer-Architektur ist in vielen Bereichen, wie der natürlichen Sprachverarbeitung und der Computer Vision, zu einer vorherrschenden Wahl geworden. Dennoch konnte sie im Vergleich zu gängigen Varianten von Graph Neural Networks (GNNs) auf beliebten Leaderboards für Graph-Level-Vorhersagen keine wettbewerbsfähige Leistung erzielen. Daher bleibt es ein Rätsel, wie Transformer bei der Lernung von Graphrepräsentationen gut abschneiden können. In dieser Arbeit lösen wir dieses Rätsel durch die Vorstellung von Graphormer, der auf der Standard-Transformer-Architektur basiert und hervorragende Ergebnisse in einem breiten Spektrum von Aufgaben zur Lernung von Graphrepräsentationen erzielt, insbesondere beim jüngsten OGB Large-Scale Challenge. Unser entscheidendes Erkenntnis zur Nutzung des Transformers in Graphen ist die Notwendigkeit, die strukturellen Informationen eines Graphen effektiv in das Modell zu kodieren. Zu diesem Zweck schlagen wir mehrere einfache, aber effektive Methoden zur strukturellen Kodierung vor, um Graphormer bei der Modellierung von graphstrukturierten Daten besser zu unterstützen. Darüber hinaus charakterisieren wir mathematisch die Ausdrucksstärke von Graphormer und zeigen, dass mit unseren Methoden zur Kodierung der strukturellen Informationen vieler beliebter GNN-Varianten diese als Sonderfälle von Graphormer abgedeckt werden können.