Verbesserung von Graph Neural Networks durch einfache Architekturgestaltung

Graph Neural Networks sind zu einem nützlichen Werkzeug geworden, um auf Daten zu lernen, indem zusätzliche Einschränkungen aufgrund der Graphstruktur angewandt werden. Diese Graphen werden oft unter der Annahme intrinsischer Beziehungen zwischen den Entitäten erstellt. In den letzten Jahren sind erhebliche Fortschritte in der Architekturgestaltung erreicht worden, was die Leistung in verschiedenen Vorhersageaufgaben kontinuierlich verbessert hat. Im Allgemeinen kombinieren diese neuronalen Architekturen eine tiefe Schichtung mit Schritten zur Aggregation von Knotenmerkmalen. Dies macht es jedoch schwierig, die Bedeutung von Merkmalen bei verschiedenen Hop-Distanzen sowie die Ausdruckskraft der neuronalen Netzwerkschichten zu analysieren. Da verschiedene Graph-Datensätze unterschiedliche Grade an Homophilie und Heterophilie sowohl in den Merkmalen als auch in der Verteilung der Klassenlabels aufweisen, ist es entscheidend, ohne vorherige Informationen zu verstehen, welche Merkmale für die Vorhersageaufgaben wichtig sind. In dieser Arbeit trennen wir die Aggregation von Knotenmerkmalen von der Tiefe des Graph Neural Network ab und stellen mehrere zentrale Gestaltungsstrategien für Graph Neural Networks vor. Genauer gesagt schlagen wir vor, die Softmax-Funktion als Regularisierer und einen „Soft-Selector“ zur Auswahl von aus Nachbarn bei unterschiedlichen Hop-Distanzen aggregierten Merkmalen einzusetzen; zudem führen wir eine „Hop-Normalisierung“ über die GNN-Schichten ein. Durch die Kombination dieser Techniken präsentieren wir ein einfaches und flaches Modell, das Feature Selection Graph Neural Network (FSGNN), und zeigen empirisch, dass das vorgeschlagene Modell andere state-of-the-art GNN-Modelle übertrifft und bei Aufgaben der Knotenklassifikation eine Verbesserung der Genauigkeit um bis zu 64 % erreicht. Darüber hinaus ermöglicht die Analyse der gelernten Soft-Selection-Parameter eine einfache Untersuchung der Bedeutung von Merkmalen für die Vorhersageaufgaben. Schließlich zeigen wir anhand von Experimenten, dass das Modell skalierbar ist und für große Graphen mit Millionen von Knoten und Milliarden von Kanten geeignet ist.