vor 17 Tagen

Adaptive rotierte Faltung für die Erkennung rotierter Objekte

Yifan Pu, Yiru Wang, Zhuofan Xia, Yizeng Han, Yulin Wang, Weihao Gan, Zidong Wang, Shiji Song, Gao Huang

Abstract

Rotierte Objektdetektion zielt darauf ab, Objekte in Bildern mit beliebiger Orientierung zu identifizieren und zu lokalisieren. In diesem Szenario variieren die orientierten Ausrichtungen der Objekte erheblich zwischen verschiedenen Bildern, während innerhalb eines einzigen Bildes mehrere unterschiedliche Orientierungen von Objekten existieren können. Diese inhärente Eigenschaft macht es für herkömmliche Backbone-Netzwerke schwierig, hochwertige Merkmale dieser beliebig ausgerichteten Objekte zu extrahieren. In diesem Artikel präsentieren wir das Adaptive Rotated Convolution (ARC)-Modul, um die oben genannten Herausforderungen zu bewältigen. Im ARC-Modul rotieren die Faltkern-Filter adaptiv, um Objektmerkmale mit variierenden Orientierungen in unterschiedlichen Bildern zu erfassen, und es wird ein effizientes bedingtes Berechnungsmechanismus eingeführt, um die großen Orientierungsunterschiede von Objekten innerhalb eines Bildes zu berücksichtigen. Beide Entwürfe arbeiten nahtlos im Kontext der rotierten Objektdetektion. Darüber hinaus kann ARC problemlos als Plug-and-Play-Modul in verschiedenen Vision-Backbones integriert werden, um deren Fähigkeit zur genauen Detektion ausgerichteter Objekte zu verbessern. Experimente auf gängigen Benchmarks (DOTA und HRSC2016) zeigen, dass die Leistung mehrerer etablierter rotierter Objektdetektoren erheblich gesteigert wird, wenn das vorgeschlagene ARC-Modul in das Backbone-Netzwerk integriert wird (z. B. +3,03 % mAP bei Rotated RetinaNet und +4,16 % bei CFA). In Kombination mit der hochkonkurrenzfähigen Methode Oriented R-CNN erreicht der vorgeschlagene Ansatz eine state-of-the-art-Leistung auf dem DOTA-Datensatz mit 81,77 % mAP. Der Quellcode ist unter \url{https://github.com/LeapLabTHU/ARC} verfügbar.