Extraire les connaissances des réseaux de neurones sur graphes et aller au-delà : un cadre efficace de distillation de connaissances

L'apprentissage semi-supervisé sur les graphes constitue un problème important dans le domaine de l'apprentissage automatique. Ces dernières années, les méthodes de classification de pointe basées sur les réseaux de neurones sur graphes (GNN) ont démontré leur supériorité par rapport aux approches traditionnelles, telles que la propagation des étiquettes. Toutefois, les architectures sophistiquées de ces modèles neuronaux entraînent un mécanisme de prédiction complexe, qui ne parvient pas à tirer pleinement parti des connaissances a priori précieuses présentes dans les données — par exemple, les nœuds structuralement corrélés ont tendance à appartenir à la même classe. Dans cet article, nous proposons un cadre fondé sur la distillation de connaissances afin de remédier à ces limites. Notre cadre extrait les connaissances d’un modèle GNN appris arbitraire (modèle enseignant) et les injecte dans un modèle étudiant soigneusement conçu. Ce dernier repose sur deux mécanismes de prédiction simples — la propagation des étiquettes et la transformation des caractéristiques — qui préservent naturellement, respectivement, les connaissances a priori basées sur la structure et celles basées sur les caractéristiques. Plus précisément, nous concevons le modèle étudiant comme une combinaison entraînable de modules paramétrés de propagation des étiquettes et de transformation des caractéristiques. En conséquence, le modèle étudiant appris bénéficie à la fois des connaissances a priori et des connaissances intégrées dans les modèles enseignants GNN, permettant des prédictions plus efficaces. En outre, le processus de prédiction du modèle étudiant appris est plus interprétable que celui des GNN. Nous menons des expérimentations sur cinq jeux de données publics de référence, en utilisant sept modèles GNN — dont GCN, GAT, APPNP, SAGE, SGC, GCNII et GLP — comme modèles enseignants. Les résultats expérimentaux montrent que le modèle étudiant appris surpasse systématiquement son modèle enseignant correspondant, avec une amélioration moyenne de 1,4 % à 4,7 %. Le code et les données sont disponibles à l’adresse suivante : https://github.com/BUPT-GAMMA/CPF