Modellierung des Hintergrunds für inkrementelles Lernen in der semantischen Segmentierung

Trotz ihrer Effektivität in einer Vielzahl von Aufgaben leiden tiefe Architekturen an einigen wichtigen Einschränkungen. Insbesondere sind sie anfällig für katastrophales Vergessen, d.h. ihre Leistungsfähigkeit ist eingeschränkt, wenn sie ihr Modell bei der Verfügbarkeit neuer Klassen aktualisieren müssen, aber das ursprüngliche Trainingsdatensatz nicht beibehalten wird. Diese Arbeit behandelt dieses Problem im Kontext der semantischen Segmentierung. Aktuelle Strategien scheitern bei dieser Aufgabe, da sie einen besonderen Aspekt der semantischen Segmentierung nicht berücksichtigen: Da jede Trainingsphase nur Annotationen für einen Teil aller möglichen Klassen bereitstellt, zeigt die Hintergrundklasse (d.h. Pixel, die keiner anderen Klasse angehören) eine semantische Verteilungsshift. In dieser Arbeit überarbeiten wir klassische inkrementelle Lernmethoden und schlagen einen neuen distillationsbasierten Rahmen vor, der diesen Shift explizit berücksichtigt. Darüber hinaus führen wir eine neuartige Strategie zur Initialisierung der Klassifikatorparameter ein, um voreingenommene Vorhersagen in Richtung der Hintergrundklasse zu verhindern. Wir demonstrieren die Effektivität unseres Ansatzes durch eine umfassende Evaluierung auf den Datensätzen Pascal-VOC 2012 und ADE20K, wobei wir signifikant besser abschneiden als die besten bisher bekannten inkrementellen Lernmethoden.