Apprentissage de représentations inductives sur de grands graphes

Les plongements de faible dimension des nœuds dans de grands graphes ont fait leurs preuves dans diverses tâches de prédiction, allant de la recommandation de contenu à l'identification des fonctions protéiques. Cependant, la plupart des approches existantes nécessitent que tous les nœuds du graphe soient présents lors de l'entraînement des plongements ; ces approches précédentes sont fondamentalement transductives et ne généralisent pas naturellement aux nœuds non vus. Nous présentons ici GraphSAGE, un cadre général et inductif qui utilise les informations sur les caractéristiques des nœuds (par exemple, les attributs textuels) pour générer efficacement des plongements pour des données non vues. Au lieu d'entraîner des plongements individuels pour chaque nœud, nous apprenons une fonction qui génère des plongements en échantillonnant et en agrégant les caractéristiques du voisinage local d'un nœud. Notre algorithme surpasse de solides méthodes de référence sur trois benchmarks d classification inductive de nœuds : nous classifions la catégorie des nœuds non vus dans des graphes d'information évolutifs basés sur des données de citations et de publications Reddit, et nous montrons que notre algorithme généralise également à des graphes complètement non vus en utilisant un ensemble de données multigraphes d'interactions protéine-protéine.