Lernen des RoI-Transformers zur Erkennung von orientierten Objekten in Luftbildern

Die Objekterkennung in Luftbildern ist eine aktive, jedoch herausfordernde Aufgabe im Bereich der Computer Vision aufgrund der Vogelperspektive, der hochkomplexen Hintergründe und der variablen Erscheinungsformen von Objekten. Insbesondere bei der Erkennung dicht gepackter Objekte in Luftbildern führen Methoden, die auf horizontale Vorschläge für die übliche Objekterkennung basieren, oft zu Fehlzuordnungen zwischen den Regions of Interest (RoIs) und den Objekten. Dies resultiert in einer häufig auftretenden Fehlallokation zwischen dem endgültigen Klassifikationsvertrauen und der Lokalisierungsgenauigkeit. Obwohl rotierte Anker verwendet wurden, um dieses Problem anzugehen, führt deren Design stets zu einer Multiplikation der Anzahls von Ankers und einem drastischen Anstieg der Rechenaufwandskomplexität. In dieser Arbeit schlagen wir einen RoI Transformer vor, um diese Probleme zu lösen. Genauer gesagt haben wir zunächst einen Rotated RoI (RRoI)-Learner entwickelt, um eine Horizontale Region of Interest (HRoI) in eine Rotierte Region of Interest (RRoI) zu transformieren. Basierend auf den RRoIs haben wir dann ein Modul namens Rotated Position Sensitive RoI Align (RPS-RoI-Align) vorgeschlagen, um rotationsinvariante Merkmale aus ihnen zu extrahieren, um die nachfolgende Klassifikation und Regression zu verbessern. Unser RoI Transformer ist leichtgewichtig und kann einfach in Detektoren für orientierte Objekterkennung eingebettet werden. Eine einfache Implementierung des RoI Transformers hat auf zwei gängigen und anspruchsvollen Luftbild-Datensätzen, nämlich DOTA und HRSC2016, Stand-of-the-Art-Leistungen erzielt, wobei sich die Erkennungsgeschwindigkeit nur unmerklich verringert hat. Unser RoI Transformer übertrifft das deformable Position Sensitive RoI-Pooling bei verfügbaren annotierten orientierten Begrenzungsboxen. Ausführliche Experimente haben zudem die Flexibilität und Effektivität unseres RoI Transformers bestätigt. Die Ergebnisse zeigen, dass es leicht mit anderen Detektoraufbauten integriert werden kann und die Leistungsignifikant verbessert.