CBNet : une nouvelle architecture de réseau principal composite pour la détection d'objets

Dans les détecteurs basés sur les réseaux de neurones convolutifs (CNN) existants, le réseau principal (backbone) constitue une composante essentielle pour l'extraction de caractéristiques de base, et les performances des détecteurs dépendent fortement de celui-ci. Dans ce travail, nous visons à améliorer les performances de détection en construisant un backbone plus puissant à partir de backbones existants tels que ResNet et ResNeXt. Plus précisément, nous proposons une nouvelle stratégie permettant d’assembler plusieurs backbones identiques grâce à des connexions composites entre les backbones adjacents, afin de former un backbone plus puissant appelé Composite Backbone Network (CBNet). Grâce à cette approche, le CBNet alimente itérativement, de manière progressive par étapes, les caractéristiques de haut niveau issues du backbone précédent comme partie des caractéristiques d’entrée du backbone suivant, et les cartes de caractéristiques du dernier backbone (appelé Lead Backbone) sont finalement utilisées pour la détection d’objets. Nous montrons que le CBNet peut être facilement intégré à la plupart des détecteurs de pointe actuels, entraînant une amélioration significative de leurs performances. Par exemple, il augmente la mAP de FPN, Mask R-CNN et Cascade R-CNN sur le jeu de données COCO de 1,5 à 3,0 points de pourcentage. Par ailleurs, les résultats expérimentaux montrent également une amélioration des performances en segmentation d’instances. En particulier, en intégrant simplement le CBNet proposé au détecteur de base Cascade Mask R-CNN, nous atteignons un nouveau résultat d’état de l’art sur le jeu de données COCO (mAP de 53,3) avec un seul modèle, ce qui démontre l’efficacité remarquable de l’architecture proposée. Le code sera rendu disponible à l’adresse suivante : https://github.com/PKUbahuangliuhe/CBNet.