Semantisch-visuelle geführter Transformer für Few-shot Class-Incremental Learning

Few-shot Class-Incremental Learning (FSCIL) hat in letzter Zeit erhebliche Aufmerksamkeit in verschiedenen Bereichen gefunden. Bestehende FSCIL-Methoden sind stark von der Robustheit des vortrainierten Feature-Backbones auf Basis-Klassen abhängig. In den letzten Jahren haben verschiedene Transformer-Varianten erhebliche Fortschritte bei der Merkmalsdarstellung in zahlreichen großskaligen Anwendungsfeldern erzielt. Dennoch konnte der Fortschritt des Transformers in FSCIL-Szenarien bisher das Potenzial nicht realisieren, das er in anderen Bereichen gezeigt hat. In diesem Artikel entwickeln wir einen semantisch-visuellen geführten Transformer (SV-T), um die Merkmalsextraktionskapazität des vortrainierten Feature-Backbones auf inkrementelle Klassen zu verbessern. Konkret nutzen wir zunächst die visuellen (Bild-)Etiketten der Basis-Klassen, um die Optimierung des Transformers zu steuern. Anschließend wird ein Text-Encoder eingeführt, um automatisch entsprechende semantische (Text-)Etiketten für jedes Bild aus den Basis-Klassen zu generieren. Schließlich werden die so konstruierten semantischen Etiketten weiterhin verwendet, um die Hyperparameter des Transformers zu aktualisieren. Unser SV-T kann die zusätzliche Überwachungsinformation aus den Basis-Klassen optimal nutzen und die Trainingsrobustheit des Feature-Backbones weiter verbessern. Wichtiger noch: SV-T ist eine eigenständige Methode, die direkt auf bestehende FSCIL-Architekturen angewendet werden kann, um Embeddings verschiedener inkrementeller Klassen zu erzeugen. Umfangreiche Experimente auf drei Benchmarks, zwei FSCIL-Architekturen und zwei Transformer-Varianten zeigen, dass unser vorgeschlagener SV-T im Vergleich zu bestehenden State-of-the-Art-FSCIL-Methoden eine signifikante Verbesserung erzielt.