Kaskadierter Zoom-in-Detektor für hochauflösende Luftbilder

Die Erkennung von Objekten in Luftbildern ist herausfordernd, da diese typischerweise aus dicht beieinanderliegenden kleinen Objekten bestehen, die ungleichmäßig über hochauflösende Bilder verteilt sind. Die Dichtekreuzung (Density Cropping) ist eine weit verbreitete Methode zur Verbesserung der Erkennung kleiner Objekte, bei der die Regionen mit dicht belegten kleinen Objekten extrahiert und in hoher Auflösung verarbeitet werden. Diese Vorgehensweise wird jedoch üblicherweise durch die Einführung zusätzlicher lernbarer Komponenten realisiert, was den Trainings- und Inferenzprozess eines Standarddetektors kompliziert. In diesem Artikel stellen wir einen effizienten Cascaded Zoom-in (CZ)-Detektor vor, der den Detektor selbst für eine dichtegesteuerte Trainings- und Inferenzstrategie wiederverwendet. Während des Trainings werden Dichtekreuzungen lokalisiert, als neue Klasse beschriftet und zur Erweiterung des Trainingsdatensatzes eingesetzt. Während der Inferenz werden die Dichtekreuzungen zunächst gemeinsam mit den Basisobjektklassen erkannt und anschließend einer zweiten Inferenzstufe zugeführt. Dieser Ansatz lässt sich problemlos in beliebige Detektoren integrieren und verursacht keine signifikanten Änderungen im Standarddetektionsprozess, im Gegensatz zur in der Luftbilderkennung verbreiteten Methode der gleichmäßigen Kreuzung. Experimentelle Ergebnisse auf den anspruchsvollen VisDrone- und DOTA-Datensätzen bestätigen die Vorteile des vorgeschlagenen Ansatzes. Der vorgeschlagene CZ-Detektor erzielt zudem state-of-the-art-Ergebnisse im Vergleich zur gleichmäßigen Kreuzung und anderen Dichtekreuzungsmethoden auf dem VisDrone-Datensatz und erhöht die mAP für kleine Objekte um mehr als drei Punkte.