DetectoRS : Détection d'objets avec une pyramide de caractéristiques récursive et une convolution à trous interchangeable

De nombreux détecteurs d'objets modernes obtiennent des performances exceptionnelles en adoptant un mécanisme de « regarder deux fois, réfléchir deux fois ». Dans ce travail, nous explorons ce mécanisme dans la conception du squelette (backbone) pour la détection d'objets. Au niveau macroscopique, nous proposons le Recursive Feature Pyramid (RFP), qui intègre des connexions de rétroaction supplémentaires provenant des réseaux de pyramides de caractéristiques (Feature Pyramid Networks) vers les couches ascendantes du squelette. Au niveau microscopique, nous introduisons la convolution à taux variable commutable (Switchable Atrous Convolution), qui applique des convolutions aux caractéristiques avec différents taux d’atrous et combine les résultats à l’aide de fonctions de commutation. L’association de ces deux composants donne naissance à DetectoRS, qui améliore significativement les performances de détection d’objets. Sur le jeu de test COCO dev, DetectoRS atteint des résultats de pointe : 55,7 % d’AP pour la détection d’objets (box AP), 48,5 % d’AP pour la segmentation d’instances (mask AP), et 50,0 % de PQ pour la segmentation pancosmique (panoptic segmentation). Le code source est rendu publiquement disponible.