GraphMAE : Autoencodeurs graphiques auto-supervisés masqués

L’apprentissage auto-supervisé (SSL) a fait l’objet d’une exploration intensive ces dernières années. En particulier, le SSL génératif a connu un succès croissant dans le traitement du langage naturel et d’autres domaines de l’intelligence artificielle, comme en témoigne l’adoption massive de modèles tels que BERT et GPT. Toutefois, malgré ces progrès, l’apprentissage contrastif — qui repose fortement sur une augmentation structurée des données et des stratégies d’entraînement complexes — reste la méthode dominante dans le domaine du SSL sur graphes. En conséquence, les avancées du SSL génératif sur les graphes, notamment les autoencodeurs de graphes (GAEs), n’ont pas encore atteint tout le potentiel promis dans d’autres domaines. Dans ce travail, nous identifions et analysons les problèmes qui entravent le développement des GAEs, notamment leur objectif de reconstruction, leur robustesse d’entraînement et leur métrique d’erreur. Nous proposons GraphMAE, un autoencodeur de graphe auto-supervisé, qui atténue ces défis pour le préentraînement auto-supervisé génératif sur graphes. Contrairement à la reconstruction de la structure du graphe, nous proposons de nous concentrer sur la reconstruction des caractéristiques, en combinant une stratégie de masquage et une erreur cosinus normalisée, ce qui favorise une entraînement plus robuste de GraphMAE. Nous menons des expériences étendues sur 21 jeux de données publics, couvrant trois tâches différentes d’apprentissage sur graphes. Les résultats montrent qu’avec une conception soignée, GraphMAE — un autoencodeur de graphe simple — obtient systématiquement de meilleures performances que les meilleures méthodes actuelles, tant contrastives que génératives. Cette étude offre une meilleure compréhension des autoencodeurs de graphes et démontre le potentiel du préentraînement auto-supervisé génératif sur les graphes.