Strip R-CNN : Grande Convolution en Bande pour la Détection d'Objets en Télédétection

Bien que le domaine de la détection d'objets par télédétection ait connu un développement rapide, la détection d'objets à forte raison d'aspect reste un défi. Cet article montre que les grandes convolutions en bande sont de bons apprenants de représentations de caractéristiques pour la détection d'objets par télédétection et peuvent détecter des objets de diverses raisons d'aspect avec efficacité. Sur la base de ces grandes convolutions en bande, nous avons conçu une nouvelle architecture de réseau appelée Strip R-CNN, qui est simple, efficace et puissante. Contrairement aux détecteurs d'objets récents en télédétection qui utilisent des convolutions à grands noyaux de forme carrée, notre Strip R-CNN tire parti de grandes convolutions en bande orthogonales séquentielles dans notre réseau principal StripNet pour capturer l'information spatiale. De plus, nous améliorons les capacités de localisation des détecteurs d'objets en télédétection en dissociant les têtes de détection et en équipant la branche de localisation avec des convolutions en bande dans notre tête en bande (strip head). Des expériences approfondies sur plusieurs benchmarks, tels que DOTA, FAIR1M, HRSC2016 et DIOR, montrent que notre Strip R-CNN peut considérablement améliorer les travaux précédents. En particulier, notre modèle de 30 millions de paramètres atteint 82,75 % mAP sur DOTA-v1.0, établissant un nouveau record de l'état de l'art. Notre code sera rendu publiquement disponible. Le code est disponible à l'adresse suivante : https://github.com/YXB-NKU/Strip-R-CNN.