Label-Guided Knowledge Distillation für kontinuierliche semantische Segmentierung auf 2D-Bildern und 3D-Punktwolken

Kontinuierliche semantische Segmentierung (Continuous Semantic Segmentation, CSS) zielt darauf ab, ein bestehendes Modell so zu erweitern, dass es neue, bisher unbekannte Aufgaben bewältigen kann, ohne dabei das vorher erlernte Wissen zu verlieren. Eine naive Feinabstimmung des alten Modells auf neue Daten führt jedoch zu katastrophalem Vergessen. Ein verbreiteter Ansatz ist die Wissens-Distillation (Knowledge Distillation, KD), bei der die Ausgabeverteilung des neuen Modells so regularisiert wird, dass sie der des alten Modells ähnelt. In CSS stellt dies jedoch eine Herausforderung dar, da das Problem des Hintergrundverschiebungs-Effekts (background shift issue) auftritt. Bestehende KD-basierte CSS-Methoden leiden weiterhin unter der Verwechslung zwischen Hintergrund und neuen Klassen, da sie keine zuverlässige Klassenkorrespondenz für die Distillation herstellen können. Um dieses Problem zu lösen, schlagen wir eine neue, label-gesteuerte Wissens-Distillation (Label-guided Knowledge Distillation, LGKD)-Verlustfunktion vor, bei der die Ausgabe des alten Modells erweitert und mit Hilfe der Ground-Truth-Labels transplantiert wird, um eine semantisch sinnvolle Korrespondenz zur Ausgabe des neuen Modells herzustellen. Dadurch kann das nützliche Wissen aus dem alten Modell effektiv in das neue Modell übertragen werden, ohne dass Verwirrung entsteht. Wir führen umfangreiche Experimente auf zwei etablierten CSS-Benchmarks durch, nämlich Pascal-VOC und ADE20K, wobei unsere LGKD die Leistung von drei konkurrierenden Methoden erheblich verbessert, insbesondere bei der mIoU für neue Klassen um bis zu +76 %, was einen neuen State-of-the-Art darstellt. Um die Generalisierungsfähigkeit weiter zu demonstrieren, führen wir erstmals einen CSS-Benchmark für 3D-Punktwolken basierend auf ScanNet ein, zusammen mit mehreren neu implementierten Baselines zur Vergleichbarkeit. Experimente zeigen, dass LGKD sowohl in 2D- als auch in 3D-Modality vielseitig einsetzbar ist, ohne spezielle Anpassungen erfordern zu müssen. Der Quellcode ist unter https://github.com/Ze-Yang/LGKD verfügbar.