Strip R-CNN: Große Streifenkonvolution für die Objekterkennung in Fernerkundungsdaten

Während Fernerkundungsobjekterkennung trotz rascher Entwicklung weiterhin Herausforderungen bei der Erkennung von Objekten mit hohem Seitenverhältnis aufweist, zeigt diese Arbeit, dass große Streifenkonvolutionen gute Merkmalsrepräsentationslerner für die Fernerkundungsobjekterkennung sind und Objekte mit verschiedenen Seitenverhältnissen gut erkennen können. Auf Basis großer Streifenkonvolutionen haben wir eine neue Netzwerkarchitektur namens Strip R-CNN entwickelt, die einfach, effizient und leistungsfähig ist. Im Gegensatz zu aktuellen Fernerkundungsobjekterkennern, die quadratische große-Kern-Konvolutionen nutzen, verwendet unser Strip R-CNN sequentielle orthogonale große Streifenkonvolutionen in unserem Backbone-Netzwerk StripNet, um räumliche Informationen zu erfassen. Darüber hinaus verbessern wir die Lokalisierungsfähigkeit von Fernerkundungsobjekterkennern, indem wir die Erkennungsköpfe entkoppeln und den Lokalisierungszweig mit Streifenkonvolutionen in unserem Streifenkopf ausstatten. Ausführliche Experimente auf mehreren Benchmarks wie DOTA, FAIR1M, HRSC2016 und DIOR zeigen, dass unser Strip R-CNN frühere Arbeiten erheblich verbessert. Insbesondere erreicht unser 30M-Modell einen mAP-Wert von 82,75 % auf DOTA-v1.0 und setzt damit einen neuen Stand der Technik. Unser Code wird öffentlich zur Verfügung gestellt (Code ist verfügbar unter https://github.com/YXB-NKU/Strip-R-CNN).