Detektion kleiner Objekte durch grob-zu-fein generierte Vorschläge und Nachahmungslernen

In den letzten Jahren hat die Objektdetektion erheblichen Erfolg erlebt, wobei aktuelle hochleistungsfähige Detektoren Schwierigkeiten bei der Erkennung von kleinformatigen Objekten zeigen. Konkret führt die bekannte Herausforderung geringer Überlappungen zwischen den Vorlagen (priors) und den tatsächlichen Objektregionen zu einer eingeschränkten Menge an Trainingsbeispielen für die Optimierung, während der Mangel an diskriminativer Information die Erkennung weiter verschärft. Um diese Probleme zu mildern, schlagen wir CFINet vor – einen zweistufigen Ansatz speziell für die Detektion kleiner Objekte, basierend auf einem Coarse-to-Fine-Pipeline-Design und Feature Imitation-Lernverfahren. Zunächst führen wir einen Coarse-to-Fine RPN (CRPN) ein, um durch eine dynamische Anchor-Auswahlstrategie und eine Kaskaden-Regression ausreichend viele hochwertige Vorschläge für kleine Objekte zu generieren. Anschließend ergänzen wir den herkömmlichen Detektionskopf um einen Feature Imitation (FI)-Zweig, der die Regionenrepräsentationen von objektspezifischen Instanzen mit begrenzter Größe auf eine nachahmende Weise verbessert, wodurch dem Modell die Erkennung erleichtert wird. Darüber hinaus wird eine ergänzende Imitationsverlustfunktion eingeführt, die dem Paradigma des überwachten kontrastiven Lernens folgt, um diesen Zweig zu optimieren. Bei Integration mit Faster R-CNN erreicht CFINet eine state-of-the-art-Leistung auf den großen Skalen-Benchmarks für die Detektion kleiner Objekte, SODA-D und SODA-A, was die Überlegenheit gegenüber dem Baseline-Detektor und anderen etablierten Ansätzen unterstreicht.