GraphMAE: Selbstüberwachte maskierte Graphen-Autoencoder

Selbstüberwachtes Lernen (SSL) wurde in den letzten Jahren umfassend erforscht. Insbesondere hat das generative SSL in der natürlichen Sprachverarbeitung und anderen Gebieten der Künstlichen Intelligenz erhebliche Fortschritte gemacht, wie beispielsweise die weite Verbreitung von BERT und GPT zeigt. Trotz dieser Erfolge bleibt das kontrastive Lernen – das stark auf strukturelle Daten-Augmentation und komplexe Trainingsstrategien angewiesen ist – die dominierende Herangehensweise im Bereich des graphenbasierten SSL. Die Entwicklung des generativen SSL auf Graphen, insbesondere bei Graphen-Autoencodern (GAEs), hat bisher jedoch das versprochene Potenzial in anderen Domänen nicht erreicht. In dieser Arbeit identifizieren und untersuchen wir die Probleme, die die Entwicklung von GAEs negativ beeinflussen, darunter das Rekonstruktionsziel, die Trainingsrobustheit und die Fehlermetrik. Wir stellen einen maskierten Graphen-Autoencoder namens GraphMAE vor, der diese Herausforderungen für das generative selbstüberwachte Vortrainieren von Graphen adressiert. Anstatt die Graphenstruktur zu rekonstruieren, schlagen wir vor, sich auf die Rekonstruktion von Merkmalen zu konzentrieren, wobei wir eine Maskierungsstrategie sowie einen skalierten Kosinusfehler einsetzen, die die robuste Ausbildung von GraphMAE fördern. Wir führen umfangreiche Experimente auf 21 öffentlichen Datensätzen für drei verschiedene graphenbasierte Lernaufgaben durch. Die Ergebnisse zeigen, dass GraphMAE – ein einfacher Graphen-Autoencoder mit sorgfältiger Gestaltung – konsistent sowohl gegenüber kontrastiven als auch gegenwärtigen generativen State-of-the-Art-Baselines überlegen ist. Diese Studie liefert ein tieferes Verständnis von Graphen-Autoencodern und demonstriert das Potenzial des generativen selbstüberwachten Vortrainings auf Graphen.