Multi-Task Self-Distillation für graphbasiertes semi-supervised Learning

Graphenbasierte semigebildete Lernansätze haben durch Graph Convolutional Networks (GCNs) erhebliche Fortschritte erzielt. Bestehende Methoden gehen in der Regel davon aus, dass Knoten, die durch Graphkanten verbunden sind, tendenziell ähnliche Attribute und Labels aufweisen, sodass durch Glättung der Merkmale mittels lokaler Graphstrukturen Klassengleichheiten sichtbar werden können. In vielen realen Anwendungsszenarien besteht jedoch häufig eine Diskrepanz zwischen den Graphstrukturen und den Labels, wobei die Strukturen irreführende Merkmale oder Labels propagieren können, was letztlich die Modellleistung beeinträchtigt. In diesem Artikel stellen wir einen mehrfachen Selbst-Distillation-Rahmen vor, der selbstüberwachtes Lernen und Selbst-Distillation in Graph Convolutional Networks integriert, um das Problem der Diskrepanz jeweils getrennt von der Strukturseite und der Labelseite anzugehen. Zunächst formulieren wir eine Selbstüberwachungspipeline basierend auf Prätextaufgaben, um verschiedene Ebenen von Ähnlichkeiten in Graphen zu erfassen. Der Merkmalsextraktionsprozess wird durch die gemeinsame Optimierung der Prätextaufgabe und der Zielaufgabe angeregt, komplexere Nähebeziehungen zu erfassen. Dadurch wird die lokale Merkmalsaggregation von der Strukturseite her verbessert. Zweitens nutzt die Selbst-Distillation weiche Labels des Modells selbst als zusätzliche Supervision, was ähnliche Effekte wie Label-Smoothing hat. Das Wissen aus der Klassifikationspipeline und der Selbstüberwachungspipeline wird gemeinsam distilliert, um die Generalisierungsfähigkeit des Modells von der Labelseite her zu steigern. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode erhebliche Leistungssteigerungen unter mehreren klassischen Graph Convolutional Architekturen erzielt.