Neural Collapse-basierte Merkmals-Klassifikator-Ausrichtung für Few-Shot Class-Incremental Learning

Few-shot class-incremental learning (FSCIL) stellt eine herausfordernde Aufgabe dar, da für jede neu hinzukommende Klasse in den späteren Sitzungen nur wenige Trainingsbeispiele zur Verfügung stehen. Das Feintunen des Backbone-Modells oder die Anpassung der Klassifikator-Prototypen, die in vorherigen Sitzungen gelernt wurden, führt zwangsläufig zu einer Desynchronisation zwischen Merkmalen und Klassifikator der alten Klassen – dies erklärt das wohl bekannte Phänomen des katastrophalen Vergessens. In diesem Artikel behandeln wir diese Desynchronisationsproblematik im FSCIL, inspiriert durch ein kürzlich entdecktes Phänomen namens Neural Collapse. Es zeigt, dass die Merkmale der letzten Schicht derselben Klasse in einem Eckpunkt zusammenfallen, während die Eckpunkte aller Klassen mit den Klassifikator-Prototypen ausgerichtet sind und gemeinsam eine simplex equiangular tight frame (ETF) bilden. Diese Struktur entspricht einer optimalen geometrischen Anordnung für die Klassifikation, da sie das maximale Fisher-Diskriminanz-Verhältnis erreicht. Wir schlagen einen auf Neural Collapse basierenden Rahmen für FSCIL vor. Dabei werden für den gesamten Label-Raum – sowohl für die Basis-Sitzung als auch für alle inkrementellen Sitzungen – vorab eine Gruppe von Klassifikator-Prototypen als ETF festgelegt. Während des Trainings sind die Klassifikator-Prototypen nicht lernbar, und wir verwenden eine neuartige Verlustfunktion, die die Merkmale zu ihren jeweiligen Prototypen hinlenkt. Theoretische Analysen zeigen, dass unsere Methode die Optimalität des Neural Collapse bewahrt und die Ausrichtung zwischen Merkmalen und Klassifikator inkrementell nicht stört. Experimente auf den Datensätzen miniImageNet, CUB-200 und CIFAR-100 belegen, dass unser vorgeschlagener Rahmen die bisher besten Ergebnisse übertrifft. Der Quellcode wird öffentlich verfügbar sein.