Dynamisches Verfeinerungsnetzwerk für orientierte und dicht gepackte Objektdetektion

Die Objektdetektion hat in den letzten zehn Jahren erhebliche Fortschritte erzielt. Dennoch bleibt die Erkennung orientierter und dicht gepackter Objekte herausfordernd, was auf folgende inhärente Schwierigkeiten zurückzuführen ist: (1) Die Empfindlichkeitsfelder der Neuronen sind stets achsenparallel und haben die gleiche Form, während Objekte in der Regel unterschiedliche Formen aufweisen und sich in verschiedenen Richtungen ausrichten; (2) Detektionsmodelle werden typischerweise mit allgemeinem Wissen trainiert und können möglicherweise nicht gut auf spezifische Objekte bei der Testphase generalisieren; (3) Die begrenzte Verfügbarkeit von Datensätzen hemmt die Entwicklung in diesem Bereich. Um die ersten beiden Probleme anzugehen, präsentieren wir ein dynamisches Verfeinerungsnetzwerk, das zwei neuartige Komponenten enthält: ein Feature-Selection-Modul (FSM) und einen dynamischen Verfeinerungs-Kopf (DRH). Unser FSM ermöglicht es den Neuronen, ihre Empfindlichkeitsfelder an die Formen und Orientierungen der Zielobjekte anzupassen, während der DRH unserem Modell die dynamische, objektbewusste Verbesserung der Vorhersagen ermöglicht. Um die geringe Verfügbarkeit relevanter Benchmarks zu überwinden, haben wir einen umfangreichen und vollständig annotierten Datensatz, namens SKU110K-R, gesammelt, der auf Basis von SKU110K mit orientierten Achsenparallelen Rechtecken neu beschriftet wurde. Wir führen quantitative Evaluierungen an mehreren öffentlich verfügbaren Benchmarks durch, darunter DOTA, HRSC2016, SKU110K und unseren eigenen SKU110K-R-Datensatz. Die experimentellen Ergebnisse zeigen, dass unsere Methode im Vergleich zu Baseline-Ansätzen konsistente und erhebliche Verbesserungen erzielt. Der Quellcode und der Datensatz sind unter https://github.com/Anymake/DRN_CVPR2020 verfügbar.