Graph InfoClust: Nutzung von cluster-level Knoteninformationen für die unüberwachte Graphendarstellungslernung

Unüberwachtes (oder selbstüberwachtes) Lernen von Graphendarstellungen ist entscheidend, um verschiedene Aufgaben der Graphendatenanalyse zu unterstützen, wenn externe Aufsichtsinformationen nicht verfügbar sind. Die zentrale Herausforderung besteht darin, die Informationen über die Graphstruktur sowie die mit Knoten und Kanten assoziierten Attributen in einen niedrigdimensionalen Raum zu kodieren. Die meisten existierenden unüberwachten Methoden fördern ähnliche Darstellungen für Knoten, die topologisch nahe beieinander liegen. Kürzlich wurde gezeigt, dass die Nutzung zusätzlicher graphenweiter Information – beispielsweise Informationen, die über alle Knoten hinweg geteilt werden – dazu führt, dass die Darstellungen die globalen Eigenschaften des Graphen berücksichtigen, was deren Qualität erheblich verbessert. In den meisten Graphen gibt es jedoch signifikant mehr Struktur, die erfasst werden kann, beispielsweise tendieren Knoten dazu, (mehreren) Clustern zuzuordnen, die strukturell ähnliche Knoten repräsentieren. Ausgehend von dieser Beobachtung schlagen wir eine Methode für die Graphendarstellungslernung namens Graph InfoClust (GIC) vor, die zusätzlich die clusterweite Informationsstruktur erfassen soll. Diese Cluster werden mittels einer differenzierbaren K-Means-Methode berechnet und gemeinsam optimiert, indem die gegenseitige Information zwischen Knoten desselben Clusters maximiert wird. Diese Optimierung führt dazu, dass die Knotendarstellungen reichhaltigere Informationen und komplexere Knoteninteraktionen erfassen, was deren Qualität verbessert. Experimente zeigen, dass GIC state-of-the-art-Methoden in verschiedenen Nachfolgeaufgaben (Knotenklassifikation, Link-Vorhersage und Knotenclustering) übertrifft, wobei im Durchschnitt eine Verbesserung von 0,9 % bis 6,1 % gegenüber dem besten konkurrierenden Ansatz erreicht wird.