FSCE: Few-Shot Objekterkennung durch kontrastive Vorschlagskodierung

Neue Interessen haben dazu geführt, dass bisher unbekannte Objekte bei sehr wenigen Trainingsbeispielen erkannt werden können, was als Few-Shot-Objekterkennung (FSOD) bekannt ist. Aktuelle Forschungen zeigen, dass eine gute Merkmalsextraktion der Schlüssel zur Erreichung einer günstigen Few-Shot-Lernleistung ist. Wir beobachten, dass Objektvorschläge mit unterschiedlichen Intersection-over-Union (IoU)-Werten vergleichbar sind mit der innerbildlichen Verstärkung, die in kontrastiven Ansätzen verwendet wird. Wir nutzen diese Analogie und integrieren überwachtes kontrastives Lernen, um robusteren Objektrepräsentationen in FSOD zu erreichen. Wir präsentieren die Few-Shot-Objekterkennung durch kontrastive Vorschlagskodierung (FSCE), einen einfachen aber effektiven Ansatz zum Lernen von kontrastbewussten Vorschlagskodierungen, die die Klassifizierung erkannter Objekte erleichtern. Wir bemerken, dass das Absinken des durchschnittlichen Präzisionswertes (AP) für seltene Objekte hauptsächlich auf die Fehlklassifikation neuer Instanzen als verwirrbare Klassen zurückzuführen ist. Und wir mildern diese Fehlklassifikationsprobleme, indem wir durch unser kontrastives Vorschlagskodierungsverlustfunktion (CPE-Verlust) die Instanzniveau-Intra-Klassen-Dichte und die Inter-Klassen-Variabilität erhöhen. Unser Design übertrifft den aktuellen Stand der Technik in jeder Shot-Situation und bei allen Datensplits, wobei es bis zu +8,8 % auf dem Standardbenchmark PASCAL VOC und +2,7 % auf dem anspruchsvollen COCO-Benchmark verbessert. Der Quellcode ist unter folgender URL verfügbar: https://github.com/MegviiDetection/FSCE