Mehrskalige Verbesserung positiver Trainingsbeispiele für Few-Shot Objektdetektion

Few-shot Object Detection (FSOD) ermöglicht es Detektoren, sich mit wenigen Trainingsbeispielen auf bisher unbekannte Klassen anzupassen, und ist besonders nützlich, wenn die manuelle Annotation zeitaufwendig ist oder die Datenerhebung begrenzt ist. Im Gegensatz zu früheren Ansätzen, die Few-shot-Klassifikationstechniken zur Unterstützung des FSOD nutzen, betonen wir hier die Notwendigkeit, das Problem der Skalenvariationen zu behandeln, das aufgrund der einzigartigen Stichprobenverteilung besonders herausfordernd ist. Dazu schlagen wir einen Ansatz namens Multi-scale Positive Sample Refinement (MPSR) vor, um die Skalenvielfalt von Objekten im FSOD zu erweitern. Der Ansatz generiert mehrskalige positive Stichproben in Form von Objektpyramiden und verfeinert die Vorhersagen auf verschiedenen Skalen. Wir demonstrieren die Vorteile dieses Ansatzes, indem wir ihn als zusätzliche Verzweigung in die populäre Architektur von Faster R-CNN mit FPN integrieren und so eine leistungsstarke Lösung für FSOD entwickeln. Mehrere Experimente wurden auf den Datensätzen PASCAL VOC und MS COCO durchgeführt, wobei der vorgeschlagene Ansatz state-of-the-art Ergebnisse erzielt und signifikant gegenüber anderen Ansätzen übertrifft, was seine Wirksamkeit belegt. Der Quellcode ist unter https://github.com/jiaxi-wu/MPSR verfügbar.