ReDet: Ein rotationsäquivalenter Detektor für die Objekterkennung in Luftbildern

In letzter Zeit hat die Objektdetektion in Luftbildern erhebliche Aufmerksamkeit in der Computer Vision erfahren. Im Gegensatz zu Objekten in natürlichen Bildern sind Luftbildobjekte oft in beliebiger Orientierung angeordnet. Daher erfordert der Detektor zusätzliche Parameter, um die Orientierungsinformationen zu kodieren, die oft stark redundant und ineffizient sind. Zudem modellieren herkömmliche CNNs die Orientierungsvariation nicht explizit, weshalb große Mengen an rotierten Daten zur Ausbildung eines genauen Objektdetektors erforderlich sind. In diesem Paper stellen wir einen Rotationsequivarianten Detektor (ReDet) vor, um diese Probleme anzugehen, der explizit Rotationsequivarianz und Rotationinvarianz kodiert. Genauer gesagt integrieren wir rotationsequivariante Netzwerke in den Detektor, um rotationsequivariante Merkmale zu extrahieren, die die Orientierung präzise vorhersagen und somit eine erhebliche Reduktion der Modellgröße ermöglichen. Auf Basis dieser rotationsequivarianten Merkmale präsentieren wir zudem Rotationinvariantes RoI Align (RiRoI Align), das adaptiv rotationinvariante Merkmale aus den equivarianten Merkmalen entsprechend der Orientierung des RoI extrahiert. Umfassende Experimente auf mehreren anspruchsvollen Luftbild-Datensätzen – DOTA-v1.0, DOTA-v1.5 und HRSC2016 – zeigen, dass unsere Methode eine state-of-the-art-Leistung bei der Detektion von Luftbildobjekten erzielt. Im Vergleich zu vorherigen besten Ergebnissen erreicht unser ReDet eine Verbesserung um 1,2, 3,5 und 2,6 mAP auf DOTA-v1.0, DOTA-v1.5 und HRSC2016 jeweils, während die Anzahl der Parameter um 60 % reduziert wird (313 MB gegenüber 121 MB). Der Quellcode ist unter \url{https://github.com/csuhan/ReDet} verfügbar.