Erweiterung der Repräsentationsdefizite bei Few-shot-Bildklassifikation: Ein Meta-Learning-Ansatz

Few-shot-Lernen stellt ein herausforderndes Problem dar, das in letzter Zeit zunehmend Aufmerksamkeit erlangt, da in praktischen Anwendungen eine reichhaltige Menge an Trainingsbeispielen oft schwer zu beschaffen ist. Meta-Lernen wurde vorgeschlagen, um dieses Problem anzugehen, indem es darauf abzielt, einen Predictor als Basis-Lerner schnell an neue Aufgaben anzupassen, wenn nur begrenzt etikettierte Beispiele zur Verfügung stehen. Ein kritischer Herausforderung beim Meta-Lernen ist jedoch die Repräsentationsdefizienz, da es schwierig ist, gemeinsame Informationen aus einer geringen Anzahl von Trainingsbeispielen – oder sogar aus nur einem einzigen – zu extrahieren, insbesondere hinsichtlich der Repräsentation zentraler Merkmale aus so wenig Information. Dadurch kann ein Meta-Lerner in einem hochdimensionalen Parameterraum nicht ausreichend gut trainiert werden, um generalisierbar auf neue Aufgaben zu sein. Bestehende Methoden gehen meist davon aus, weniger ausdrucksstarke Merkmale zu extrahieren, um der Repräsentationsdefizienz zu entgehen. Um bessere Repräsentationen zu lernen, schlagen wir einen Meta-Lernansatz mit ergänztem Repräsentationsnetzwerk (MCRNet) für das Few-Shot-Bildklassifizierungsproblem vor. Insbesondere integrieren wir einen latenten Raum, in dem latente Codes mit zusätzlichen Repräsentationsinformationen rekonstruiert werden, um die Repräsentationsdefizienz zu kompensieren. Zudem wird der latente Raum mittels variationaler Inferenz aufgebaut, was eine gute Kompatibilität mit verschiedenen Basis-Learnern ermöglicht und die Erweiterbarkeit auf andere Modelle gewährleistet. Schließlich erreicht unser end-to-end-Framework die Stand der Technik in der Bildklassifizierung auf drei etablierten Few-Shot-Lern-Datensätzen.