Induktives Repräsentationslernen auf großen Graphen

Niedrigdimensionale Einbettungen von Knoten in großen Graphen haben sich bei einer Vielzahl von Vorhersageaufgaben als äußerst nützlich erwiesen, von Inhaltsempfehlungen bis hin zur Identifizierung von Proteinfunktionen. Die meisten existierenden Ansätze erfordern jedoch, dass alle Knoten während des Trainings der Einbettungen im Graph vorhanden sind; diese früheren Ansätze sind inhärent transduktiv und lassen sich nicht auf unbekannte Knoten verallgemeinern. Hier stellen wir GraphSAGE vor, einen allgemeinen, induktiven Rahmen, der Informationen über Knoteneigenschaften (z.B. Textattribute) nutzt, um effizient Einbettungen für zuvor unbekannte Daten zu generieren. Anstatt individuelle Einbettungen für jeden Knoten zu trainieren, lernen wir eine Funktion, die Einbettungen durch das Stichprobenverfahren und die Aggregation von Eigenschaften aus der lokalen Nachbarschaft eines Knotens generiert. Unser Algorithmus übertrifft starke Baseline-Methoden in drei Benchmarks für induktive Knotenklassifikation: Wir klassifizieren die Kategorie unbekannter Knoten in sich entwickelnden Informationsgraphen auf Basis von Zitier- und Reddit-Daten und zeigen, dass unser Algorithmus auf vollständig neue Graphen verallgemeinert werden kann, indem wir ein mehrgraphisches Datensatz von Protein-Protein-Interaktionen verwenden.