Réseau neuronal graphique basé sur l'attention pour l'apprentissage semi-supervisé

Récemment, les réseaux neuronaux sur graphes (graph neural networks) ont atteint une précision de pointe sur plusieurs ensembles de données de référence pour l'apprentissage semi-supervisé basé sur des graphes, améliorant considérablement les approches existantes. Ces architectures alternent entre une couche de propagation qui agrège les états cachés du voisinage local et une couche entièrement connectée. Peut-être surprenant, nous montrons qu'un modèle linéaire, qui supprime toutes les couches entièrement connectées intermédiaires, est toujours capable d'atteindre des performances comparables à celles des modèles de pointe. Cela réduit considérablement le nombre de paramètres, ce qui est crucial pour l'apprentissage semi-supervisé où le nombre d'exemples étiquetés est faible. Ceci permet également d'ouvrir la voie à la conception de couches de propagation plus innovantes. Sur la base de cette observation, nous proposons un nouveau réseau neuronal sur graphe qui supprime toutes les couches entièrement connectées intermédiaires et remplace les couches de propagation par des mécanismes d'attention respectant la structure du graphe. Le mécanisme d'attention nous permet d'apprendre un résumé local dynamique et adaptatif du voisinage pour obtenir des prédictions plus précises. Dans plusieurs expériences menées sur des ensembles de données de réseaux de citations de référence, nous démontrons que notre approche surpassent les méthodes concurrentes. En examinant les poids d'attention entre les voisins, nous montrons que notre modèle offre certaines perspectives intéressantes sur la manière dont les voisins s'influencent mutuellement.