Neubewertung der Generalisierung in Few-Shot-Klassifikation

Einzelne Bild-level-Annotierungen beschreiben lediglich oft eine kleine Teilmenge des Inhalt eines Bildes, insbesondere wenn komplexe realweltliche Szenen dargestellt werden. Obwohl dies in vielen Klassifikationsszenarien akzeptabel ist, stellt es eine erhebliche Herausforderung dar für Anwendungen, bei denen sich die Menge der Klassen zwischen Trainings- und Testzeit erheblich unterscheidet. In diesem Artikel untersuchen wir die Konsequenzen im Kontext des Few-shot Learning. Durch die Aufteilung der Eingabebilder in Patche und deren Kodierung mittels Vision Transformers können wir semantische Korrespondenzen zwischen lokalen Bildregionen herstellen, unabhängig von den jeweiligen Klassen. Die informativsten Patch-Embeddings für die jeweilige Aufgabe werden dann im Laufe der Inferenzzeit über eine Online-Optimierung in Abhängigkeit des Support-Sets bestimmt und ermöglichen zudem eine visuelle Interpretierbarkeit dessen, „was am wichtigsten ist“ im Bild. Wir bauen auf jüngste Fortschritte im unsupervisierten Training von Netzwerken mittels Masked Image Modelling auf, um die fehlende feinkörnige Annotation zu kompensieren und die allgemeinere statistische Struktur der Daten zu lernen, ohne den negativen Einfluss von Bild-level-Annotierungen – auch bekannt als Supervision Collapse – zu befürchten. Experimentelle Ergebnisse zeigen die Wettbewerbsfähigkeit unseres Ansatzes und erreichen neue SOTA-Ergebnisse auf vier gängigen Few-shot-Klassifikationsbenchmarks für 5-Shot- und 1-Shot-Szenarien.