Zu diskriminativen und übertragbaren einstufigen Few-Shot-Objektdetektoren

Neuere Objektdetektionsmodelle erfordern große Mengen annotierter Daten, um neue Objektklassen zu trainieren. Few-shot Objektdetektion (FSOD) zielt darauf ab, dieses Problem zu lösen, indem neue Klassen mit nur wenigen Beispielen gelernt werden. Obwohl mit zweistufigen FSOD-Detektoren konkurrenzfähige Ergebnisse erzielt wurden, unterliegen typischerweise einstufige FSOD-Modelle diesen in der Leistung. Wir stellen fest, dass der große Leistungsunterschied zwischen zweistufigen und einstufigen FSOD-Modellen hauptsächlich auf deren geringe Diskriminierbarkeit zurückzuführen ist, was auf ein kleines Nachfusion-Rezeptivfeld und eine geringe Anzahl von Vordergrund-Beispielen in der Verlustfunktion beruht. Um diese Einschränkungen zu überwinden, schlagen wir Few-shot RetinaNet (FSRN) vor, das folgende Komponenten umfasst: eine Multi-Way-Support-Trainingsstrategie zur Erhöhung der Anzahl von Vordergrund-Beispielen für dichte Meta-Detektoren, eine frühe mehrstufige Merkmalsfusion, die ein breites Rezeptivfeld bietet, das den gesamten Anchor-Bereich abdeckt, sowie zwei Erweiterungstechniken für Query- und Quellbilder, um die Übertragbarkeit zu verbessern. Umfangreiche Experimente zeigen, dass der vorgeschlagene Ansatz diese Einschränkungen adressiert und sowohl die Diskriminierbarkeit als auch die Übertragbarkeit erhöht. FSRN ist fast doppelt so schnell wie zweistufige FSOD-Modelle, bleibt jedoch in der Genauigkeit konkurrenzfähig und übertrifft sowohl den Stand der Technik bei einstufigen Meta-Detektoren als auch einige zweistufige FSOD-Modelle auf den Benchmarks MS-COCO und PASCAL VOC.