vor 15 Tagen

Die Aufteilung macht einen Unterschied: Flache Minima-Methoden zur Verbesserung der Leistung von GNNs

Nicolas Lell, Ansgar Scherp

Abstract

Beim Training eines neuronalen Netzes wird es anhand der verfügbaren Trainingsdaten optimiert, mit der Hoffnung, dass es gut auf neue oder unerwartete Testdaten generalisiert. Bei gleichem absoluten Wert gilt ein flacher Minimum im Verlustlandeskampf als besser geeignet zur Generalisierung als ein scharfes Minimum. Methoden zur Bestimmung flacher Minima wurden bisher hauptsächlich für unabhängige und identisch verteilte (i. i. d.) Daten wie Bilder erforscht. Graphen sind hingegen inhärent nicht-i. i. d., da ihre Knoten über Kanten miteinander verbunden sind. Wir untersuchen Methoden zur Erkennung flacher Minima sowie Kombinationen dieser Methoden im Kontext des Trainings von Graph Neural Networks (GNNs). Hierbei verwenden wir GCN und GAT sowie erweitern Graph-MLP, um sie für eine größere Anzahl an Schichten und größere Graphen nutzbar zu machen. Wir führen Experimente an kleinen und großen Zitierungs-, Ko-Kauf- und Proteindatenmengen durch, jeweils mit unterschiedlichen Train-Test-Splits sowohl im transduktiven als auch im induktiven Trainingsverfahren. Die Ergebnisse zeigen, dass Methoden zur Erzeugung flacher Minima die Leistung von GNN-Modellen um über 2 Punkte verbessern können, sofern der Train-Test-Split zufällig gewählt ist. Wie von Shchur et al. vorgeschlagen, sind zufällige Splits für eine faire Bewertung von GNNs unerlässlich, da andere (feste) Splits wie „Planetoid“ verzerrend wirken. Insgesamt liefern wir wichtige Erkenntnisse zur Verbesserung und fairen Bewertung von Methoden zur Erzeugung flacher Minima bei GNNs. Wir empfehlen Praktikern, stets Techniken zur Gewichtsdurchschnittsbildung einzusetzen, insbesondere EWA im Falle des Early Stopping. Obwohl Techniken zur Gewichtsdurchschnittsbildung nicht immer die bestmögliche Leistung erzielen, sind sie weniger empfindlich gegenüber Hyperparametern, erfordern keine zusätzliche Trainingsphase und verändern das ursprüngliche Modell nicht. Der gesamte Quellcode ist unter https://github.com/Foisunt/FMMs-in-GNNs verfügbar.