Eine universelle Darstellungstransformerschicht für Few-Shot-Bildklassifikation

Few-shot-Klassifikation zielt darauf ab, unbekannte Klassen zu erkennen, wenn nur eine geringe Anzahl von Beispielen zur Verfügung steht. Wir betrachten das Problem der multi-domain Few-shot-Bildklassifikation, bei dem unbekannte Klassen und Beispiele aus diversen Datenquellen stammen. Dieses Problem hat zunehmendes Interesse hervorgerufen und hat die Entwicklung von Benchmarks wie Meta-Dataset angeregt. Eine zentrale Herausforderung in dieser multi-domain-Umgebung besteht darin, die Merkmalsdarstellungen aus der Vielzahl der Trainingsdomänen effektiv zu integrieren. Hier schlagen wir eine Universal Representation Transformer (URT)-Schicht vor, die durch Meta-Lernen lernt, universelle Merkmale für die Few-shot-Klassifikation durch dynamische Umgewichtung und Kombination der am besten geeigneten domänenspezifischen Darstellungen zu nutzen. In Experimenten zeigen wir, dass URT eine neue State-of-the-Art-Leistung auf Meta-Dataset erzielt. Insbesondere erreicht sie die beste Leistung bei der höchsten Anzahl an Datenquellen im Vergleich zu konkurrierenden Methoden. Wir analysieren Varianten von URT und präsentieren eine Visualisierung der Aufmerksamkeits-Score-Heatmaps, die Einblicke in die Fähigkeit des Modells zur cross-domain-Generalisierung bietet. Unser Code ist unter https://github.com/liulu112601/URT verfügbar.