Few-Shot-Klassifikation über Domänen hinweg mittels gelernter feature-weiser Transformation

Few-shot-Klassifikation zielt darauf ab, neue Kategorien anhand nur weniger beschrifteter Bilder pro Klasse zu erkennen. Bestehende metrikbasierte Few-shot-Klassifikationsalgorithmen klassifizieren Objekte, indem sie die Merkmalsdarstellungen (Feature Embeddings) von Abfragebildern mit denen aus wenigen beschrifteten Bildern (sogenannten Support-Beispielen) mithilfe einer gelernten Metrikfunktion vergleichen. Obwohl diese Ansätze vielversprechende Ergebnisse erzielen, weisen sie oft eine schlechte Generalisierbarkeit auf unbekannte Domänen auf, da die Merkmalsverteilungen zwischen verschiedenen Domänen stark voneinander abweichen können. In dieser Arbeit behandeln wir das Problem der Few-shot-Klassifikation unter Domänenverschiebungen für metrikbasierte Methoden. Unser zentrales Konzept besteht darin, in der Trainingsphase feature-wise Transformationsschichten einzusetzen, die mithilfe affiner Transformationen die Bilddaten erweitern, um verschiedene Merkmalsverteilungen unter unterschiedlichen Domänen zu simulieren. Um die Variationen der Merkmalsverteilungen unter verschiedenen Domänen besser erfassen zu können, wenden wir zudem einen Learning-to-Learn-Ansatz an, um die Hyperparameter der feature-wise Transformationsschichten zu optimieren. Wir führen umfangreiche Experimente und Ablationsstudien im Rahmen der Domänenverallgemeinerung durch, basierend auf fünf Few-shot-Klassifikationsdatensätzen: mini-ImageNet, CUB, Cars, Places und Plantae. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene feature-wise Transformationsschicht für verschiedene metrikbasierte Modelle anwendbar ist und eine konsistente Verbesserung der Few-shot-Klassifikationsleistung unter Domänenverschiebungen ermöglicht.