DetectoRS: Objektdetektion mit rekursivem Merkmalspyramiden-Netzwerk und wechselbarem atrous-Convolution

Viele moderne Objektdetektoren erzielen herausragende Leistungen durch die Nutzung des Mechanismus des „Zweimal Hinsehen und Nachdenken“. In dieser Arbeit untersuchen wir diese Mechanik im Kontext der Backbone-Struktur für die Objektdetektion. Auf makroskopischer Ebene schlagen wir den Recursive Feature Pyramid (RFP) vor, der zusätzliche Rückkopplungsverbindungen aus den Feature Pyramid Networks (FPN) in die bottom-up Backbone-Schichten integriert. Auf mikroskopischer Ebene präsentieren wir die Switchable Atrous Convolution, die Feature mit unterschiedlichen Atrous-Raten convolviert und die Ergebnisse mittels Schaltfunktionen zusammenfasst. Die Kombination beider Ansätze führt zu DetectoRS, welches die Leistung der Objektdetektion erheblich verbessert. Auf dem COCO test-dev-Set erreicht DetectoRS state-of-the-art-Werte von 55,7 % Box AP für die Objektdetektion, 48,5 % Mask AP für die Instanzsegmentierung und 50,0 % PQ für die Panoptic-Segmentierung. Der Quellcode ist öffentlich verfügbar.