D3Former: Debiased Dual Distilled Transformer für inkrementelles Lernen

Im klassen-inkrementellen Lernansatz (Class Incremental Learning, CIL) werden in jeder Lernphase Gruppen von Klassen nacheinander einem Modell vorgestellt. Ziel ist es, ein einheitliches Modell zu erlernen, das auf allen bisher beobachteten Klassen leistungsfähig ist. Angesichts der jüngsten Beliebtheit von Vision Transformers (ViTs) in herkömmlichen Klassifikationsaufgaben stellt sich die interessante Frage, wie sich diese Architekturen im Kontinuierlichen Lernen verhalten. In dieser Arbeit präsentieren wir einen debiasierten Dual-Distilled Transformer für CIL, den wir $\textrm{D}^3\textrm{Former}$ nennen. Das vorgeschlagene Modell nutzt einen hybriden geschachtelten ViT-Entwurf, um Daten-Effizienz und Skalierbarkeit sowohl auf kleinen als auch auf großen Datensätzen zu gewährleisten. Im Gegensatz zu einem kürzlich vorgestellten ViT-basierten CIL-Ansatz erweitert unser $\textrm{D}^3\textrm{Former}$ seine Architektur bei der Aufnahme neuer Aufgaben nicht dynamisch und bleibt dennoch für eine große Anzahl inkrementeller Aufgaben geeignet. Die verbesserte CIL-Leistung von $\textrm{D}^3\textrm{Former}$ beruht auf zwei grundlegenden Änderungen im ViT-Design. Erstens betrachten wir das inkrementelle Lernen als ein Long-Tail-Klassifikationsproblem, bei dem die Anzahl der neuen Klassen deutlich größer ist als die begrenzte Anzahl an Beispielbildern für die alten Klassen. Um eine Bias gegenüber den Minderheitsklassen (den alten Klassen) zu vermeiden, schlagen wir vor, die Logits dynamisch anzupassen, um die Erhaltung von Repräsentationen, die für die alten Aufgaben relevant sind, zu fördern. Zweitens schlagen wir vor, die Konfiguration der räumlichen Aufmerksamkeitskarten im Verlauf der Aufgabenwechsel beizubehalten. Dies hilft, das Katastrophenvergessen zu verringern, indem das Modell daran gehindert wird, die Aufmerksamkeit auf die diskriminativsten Regionen zu verlieren. $\textrm{D}^3\textrm{Former}$ erreicht überzeugende Ergebnisse auf inkrementellen Versionen der Datensätze CIFAR-100, MNIST, SVHN und ImageNet. Der Quellcode ist unter https://tinyurl.com/d3former verfügbar.