Dichte-Getreide-gesteuerte semi-supervised Objektdetektion in Luftbildern

Ein wesentlicher Engpass bei der Schulung moderner Objektdetektoren besteht in der Notwendigkeit von beschrifteten Bildern, bei denen für jedes Objekt im Bild eine Bounding-Box-Anmerkung erstellt werden muss. Dieser Engpass verstärkt sich besonders bei Luftbildern, bei denen die Annotatoren häufig kleine Objekte identifizieren müssen, die oft in Clustern auf hochauflösenden Bildern verteilt sind. In den letzten Jahren gewinnt der Mean-Teacher-Ansatz, der mit Pseudolabels und Konsistenz zwischen schwachen und starken Augmentierungen trainiert wird, zunehmend an Beliebtheit für semi-supervised Objektdetektion. Eine direkte Anpassung solcher semi-supervisierter Detektoren für Luftbilder, in denen häufig kleine, in Clustern angeordnete Objekte auftreten, führt jedoch möglicherweise nicht zu optimalen Ergebnissen. In diesem Artikel stellen wir einen dichte-Crop-gesteuerten semi-supervisierten Detektor vor, der während des Trainings Cluster kleiner Objekte identifiziert und diese zur Verbesserung der Leistung bei der Inferenz nutzt. Während des Trainings werden Bildausschnitte aus Clustern, die sowohl aus beschrifteten als auch aus unbeschrifteten Bildern identifiziert wurden, zur Erweiterung des Trainingsdatensatzes verwendet. Dadurch steigt die Wahrscheinlichkeit, kleine Objekte zu detektieren, und es können qualitativ hochwertige Pseudolabels für kleine Objekte auf unbeschrifteten Bildern generiert werden. Bei der Inferenz ist der Detektor nicht nur in der Lage, die interessierenden Objekte zu erkennen, sondern auch Regionen mit hoher Dichte kleiner Objekte (sogenannte Dichte-Crops) zu identifizieren. Die Detektionsergebnisse aus dem Eingabebild und aus den Bildausschnitten werden kombiniert, was zu einer insgesamt genaueren Objekterkennung führt, insbesondere bei kleinen Objekten. Empirische Studien an den etablierten Benchmarks VisDrone und DOTA zeigen die Wirksamkeit unseres dichte-Crop-gesteuerten semi-supervisierten Detektors mit einer durchschnittlichen Verbesserung von mehr als 2 % im COCO-Stil AP gegenüber der Basis-Mean-Teacher-Methode. Unser Code ist unter folgender URL verfügbar: https://github.com/akhilpm/DroneSSOD.