vor 13 Tagen

Vortrainierte Vision- und Sprach-Transformers sind Few-Shot-Inkremental-Lerner

Keon-Hee Park, Kyungwoo Song, Gyeong-Moon Park

Abstract

Few-Shot Class Incremental Learning (FSCIL) ist eine Aufgabe, bei der ein Modell neue Klassen inkrementell lernen muss, ohne dabei vergessene Wissensinhalte zu verlieren, wobei für jede Klasse nur wenige Beispielbilder zur Verfügung stehen. FSCIL begegnet zwei zentralen Herausforderungen: katastrophalem Vergessen und Überanpassung (Overfitting), weshalb frühere Studien vorwiegend auf flache Modelle wie ResNet-18 zurückgreifen. Obwohl deren begrenzte Kapazität beide Probleme teilweise mildern kann, führt dies zu einer unzureichenden Wissensübertragung während der Few-Shot-Inkrementalsitzungen. In diesem Paper argumentieren wir, dass große Modelle wie Vision- und Sprach-Transformer, die auf großen Datensätzen vortrainiert wurden, hervorragende Few-Shot-Inkremental-Lerner sein können. Dazu präsentieren wir einen neuartigen FSCIL-Framework namens PriViLege (Pre-trained Vision and Language transformers with prompting functions and knowledge distillation). Unser Ansatz adressiert die Herausforderungen des katastrophalen Vergessens und der Überanpassung bei großen Modellen effektiv durch eine neue Methode des Tunings vortrainierter Kenntnisse (Pre-trained Knowledge Tuning, PKT) sowie zwei neue Verlustfunktionen: eine entropiebasierte Divergenzverlustfunktion und eine semantische Knowledge-Distillation-Verlustfunktion. Experimentelle Ergebnisse zeigen, dass PriViLege die bestehenden State-of-the-Art-Methoden mit einem erheblichen Abstand übertrifft, beispielsweise um +9,38 % auf CUB200, +20,58 % auf CIFAR-100 und +13,36 % auf miniImageNet. Der Implementierungscode ist unter https://github.com/KHU-AGI/PriViLege verfügbar.