SUREL+: Von Walks zu Mengen – Ein skalierbarer Ansatz für graphbasierte Darstellungslernverfahren auf Basis von Untergraphen

Subgraph-basierte Graph-Darstellungslernverfahren (SGRL) sind kürzlich zu einem leistungsstarken Werkzeug für zahlreiche Vorhersageaufgaben auf Graphen geworden, da sie Vorteile hinsichtlich der Modellausdruckskraft und Verallgemeinerungsfähigkeit bieten. Die meisten bisherigen SGRL-Modelle stoßen jedoch auf rechnerische Herausforderungen, die mit den hohen Kosten für die Extraktion von Teilgraphen bei jeder Trainings- oder Testanfrage verbunden sind. Kürzlich wurde SUREL vorgestellt, um SGRL zu beschleunigen, indem zufällige Wege offline generiert und diese online als Ersatz für Teilgraphen zur Darstellungslernung verwendet werden. Dank der Wiederverwendbarkeit der abgetasteten Wege über verschiedene Anfragen hinweg erreicht SUREL eine state-of-the-art-Leistung in Bezug auf Skalierbarkeit und Vorhersagegenauigkeit. Dennoch leidet SUREL weiterhin unter hohem rechnerischem Overhead, verursacht durch Knotenduplikate innerhalb der abgetasteten Wege. In dieser Arbeit präsentieren wir einen neuartigen Rahmen SUREL+, der SUREL durch die Verwendung von Knotenmengen anstelle von Wegen zur Darstellung von Teilgraphen verbessert. Diese mengenbasierte Darstellung eliminiert per Definition wiederholte Knoten, kann jedoch uneinheitliche Größe aufweisen. Um dieses Problem zu lösen, entwerfen wir eine maßgeschneiderte spärliche Datenstruktur zur effizienten Speicherung und Zugriffsverwaltung von Knotenmengen sowie einen spezialisierten Operator zur parallelen Verkettung solcher Mengen in Batches. SUREL+ ist modular aufgebaut und unterstützt verschiedene Arten von Mengenabtastern, strukturelle Merkmale sowie neuronale Encoder, um die durch die Reduktion von Wegen auf Mengen verursachte Informationsverluste in der Struktur auszugleichen. Umfangreiche Experimente wurden durchgeführt, um die Leistungsfähigkeit von SUREL+ bei der Vorhersage von Verbindungen, Relationstypen und höherordentlichen Mustern zu validieren. SUREL+ erreicht eine Beschleunigung um den Faktor 3 bis 11 gegenüber SUREL, während vergleichbare oder sogar bessere Vorhersagegenauigkeit beibehalten wird; im Vergleich zu anderen SGRL-Baselines erzielt SUREL+ eine Beschleunigung um ca. 20-fach und verbessert signifikant die Vorhersagegenauigkeit.