Invariant und konsistent: Unüberwachtes Darstellungslernen für Few-Shot visuelle Erkennung
Few-shot visuelle Erkennung zielt darauf ab, neuartige, bisher nicht gesehene Klassen mit wenigen Etiketten zu identifizieren, während gleichzeitig allgemeine Vorwissen aus Basisklassen erlernt wird. Kürzlich wurden Ansätze vorgeschlagen, dieses Problem in einer unsupervised-Setting zu untersuchen, d. h. ohne jegliche Etiketten in den Basisklassen, was den hohen Bedarf an manueller Annotation reduziert. In diesem Paper bauen wir auf einem selbstüberwachten Ansatz auf und schlagen einen neuartigen unsupervised-Lernansatz vor, der invarianten und konsistenten (InCo) Repräsentationen für die Few-shot-Aufgabe gemeinsam optimiert. Für die Invarianz-Repräsentation entwickeln wir ein geometrisches Invarianzmodul, das die Rotationsvorhersage jedes einzelnen Objekts konstruiert und dabei die intra-instanz-Abweichungen erlernt, um die Merkmalsdiskriminierung zu verbessern. Um zusätzliche Konsistenz zwischen Instanzen zu erreichen, schlagen wir ein Paarweises Konsistenzmodul vor, das aus zwei Aspekten des kontrastiven Lernens resultiert: einer ganzheitlichen kontrastiven Lernmethode mit historischen Trainings-Schlangen (queues) und einer lokalen kontrastiven Lernmethode zur Verbesserung der Repräsentation aktueller Trainingsbeispiele. Darüber hinaus führen wir eine asymmetrische konvolutionale Architektur ein, um die Qualität der Merkmalsrepräsentationen weiter zu steigern und das kontrastive Lernen zwischen Merkmalen effizienter zu gestalten. Umfassende Experimente auf vier öffentlichen Benchmarks belegen die Wirksamkeit unseres Ansatzes und seine Überlegenheit gegenüber bestehenden Methoden.