Nachbewertung mittels Bild-Sprache-Ähnlichkeit für Few-Shot-Objektdetektion

Few-shot Object Detection, das sich auf die Erkennung neuartiger Objekte mit wenigen Labels konzentriert, stellt eine sich entwickelnde Herausforderung in der Forschungsgemeinschaft dar. Kürzlich gezeigte Studien belegen, dass die Anpassung eines vortrainierten Modells oder einer modifizierten Verlustfunktion die Leistungsfähigkeit verbessern kann. In diesem Paper untersuchen wir die Nutzung der Stärken von Contrastive Language-Image Pre-training (CLIP) sowie der Hard Negative Classification Loss in Szenarien mit geringen Datenmengen. Konkret stellen wir RISF (Re-scoring using Image-language Similarity for Few-shot object detection) vor, eine Erweiterung von Faster R-CNN, die zwei zentrale Komponenten integriert: einen Calibration Module mittels CLIP (CM-CLIP), der CLIP – ein Modell für zero-shot Klassifikation – nutzt, um die Klassifikationswerte eines Detektors anhand der Bild-Klasse-Ähnlichkeiten neu zu bewerten, sowie eine Background Negative Re-scale Loss (BNRL), eine modifizierte Verlustfunktion, die die Bestrafung von falschen Hintergründen sowie verwirrende Kategorien in einem generalisierten Few-shot Object Detection-Datensatz berücksichtigt. Umfangreiche Experimente auf MS-COCO und PASCAL VOC zeigen, dass das vorgeschlagene RISF die derzeit besten Ansätze erheblich übertrifft. Der Quellcode wird verfügbar gemacht.