Exploring Complementary Strengths of Invariant and Equivariant Representations for Few-Shot Learning

In vielen realen Problemen ist die Sammlung einer großen Anzahl an gelabelten Beispielen nicht durchführbar. Few-shot Learning (FSL) stellt den dominierenden Ansatz dar, um dieses Problem anzugehen, wobei das Ziel darin besteht, sich schnell auf neue Kategorien angesichts einer begrenzten Anzahl an Trainingsbeispielen einzustellen. FSL-Aufgaben wurden bisher überwiegend durch Ausnutzung von Ansätzen aus dem Bereich des gradientenbasierten Meta-Lernens und des Metrik-Lernens gelöst. Kürzlich haben jedoch Arbeiten die Bedeutung leistungsfähiger Merkmalsrepräsentationen mit einem einfachen Embedding-Netzwerk aufgezeigt, das bestehende anspruchsvolle FSL-Algorithmen übertrifft. In dieser Arbeit bauen wir auf diesen Erkenntnissen auf und schlagen eine neuartige Trainingsmechanik vor, die gleichzeitig Äquivarianz und Invarianz gegenüber einer allgemeinen Menge geometrischer Transformationen erzwingt. Äquivarianz oder Invarianz wurden in früheren Arbeiten bereits einzeln eingesetzt; jedoch, soweit uns bekannt ist, wurden sie bisher nicht gemeinsam genutzt. Die gleichzeitige Optimierung beider entgegengesetzter Ziele ermöglicht es dem Modell, Merkmale zu lernen, die nicht nur unabhängig von der Eingabetransformation sind, sondern auch Merkmale, die die Struktur geometrischer Transformationen kodieren. Diese ergänzenden Merkmalsmengen tragen dazu bei, gut auf neue Klassen zu generalisieren, selbst wenn nur wenige Datensamples verfügbar sind. Durch die Einbindung eines neuartigen selbstüberwachten Distanzierungsschritts (self-supervised distillation objective) erzielen wir zusätzliche Verbesserungen. Unsere umfassenden Experimente zeigen, dass unsere Methode selbst ohne Wissensdistillation bereits die derzeitigen State-of-the-Art-FSL-Methoden auf fünf gängigen Benchmark-Datensätzen übertrifft.