Meta-Lernen zur Erkennung seltener Objekte

Few-shot-Lernen, also das Erlernen neuer Konzepte anhand nur weniger Beispiele, ist grundlegend für praktische visuelle Erkennungssysteme. Während der Großteil der bestehenden Forschung sich auf das Few-shot-Klassifizieren konzentriert, gehen wir einen Schritt weiter und befassen uns mit dem Few-shot-Objektdetektieren, einer anspruchsvolleren, aber bisher wenig erforschten Aufgabe. Wir entwickeln einen konzeptionell einfachen, jedoch leistungsfähigen, auf Meta-Lernen basierenden Rahmen, der sowohl das Few-shot-Klassifizieren als auch die Few-shot-Lokalisierung einheitlich und kohärent behandelt. Dieser Rahmen nutzt Meta-Wissen über die „Generierung von Modellparametern“ aus Basis-Klassen mit reichlich Daten, um die Erzeugung eines Detektors für neue Klassen zu unterstützen. Unser zentrales Insight besteht darin, die Lernung von kategoriefreien und kategoriespezifischen Komponenten in einem CNN-basierten Detektionsmodell zu entkoppeln. Insbesondere führen wir ein Gewichtsvorhersagemeta-Modell ein, das die Vorhersage der Parameter kategoriespezifischer Komponenten anhand nur weniger Beispiele ermöglicht. Wir führen systematisch Benchmark-Tests zur Leistung moderner Detektoren im Regime kleiner Stichprobengrößen durch. Experimente in einer Vielzahl realistischer Szenarien – einschließlich innerhalb-dominäner, cross-domänen- und langen-Schwanz-Einstellungen – belegen die Wirksamkeit und Allgemeingültigkeit unseres Ansatzes unter unterschiedlichen Konzepten neuer Klassen.