M2Det : Un détecteur d'objets en une seule étape basé sur un réseau de pyramide de caractéristiques multi-niveaux

Les pyramides de caractéristiques sont largement utilisées par les détecteurs d'objets en une étape de pointe (par exemple, DSSD, RetinaNet, RefineDet) et les détecteurs d'objets en deux étapes (par exemple, Mask R-CNN, DetNet) pour atténuer le problème lié à la variation d'échelle entre les instances d'objets. Bien que ces détecteurs d'objets avec des pyramides de caractéristiques obtiennent des résultats encourageants, ils présentent certaines limitations en raison du fait qu'ils construisent simplement la pyramide de caractéristiques selon l'architecture pyramidale multiscale inhérente des backbones, qui sont en réalité conçus pour la tâche de classification d'objets. Récemment, dans ce travail, nous présentons une méthode appelée Réseau de Pyramides de Caractéristiques Multiniveaux (MLFPN) pour construire des pyramides de caractéristiques plus efficaces pour la détection d'objets à différentes échelles. Premièrement, nous fusionnons les caractéristiques multiniveaux (c'est-à-dire plusieurs couches) extraites par le backbone comme caractéristique de base. Deuxièmement, nous alimentons cette caractéristique de base dans un bloc alternant des modules U-forme allégés et des modules de fusion de caractéristiques, et nous utilisons les couches décodeuses de chaque module U-forme comme caractéristiques pour la détection d'objets. Enfin, nous rassemblons les couches décodeuses aux échelles (tailles) équivalentes pour développer une pyramide de caractéristiques pour la détection d'objets, où chaque carte de caractéristiques est composée de couches (caractéristiques) provenant de plusieurs niveaux. Pour évaluer l'efficacité du MLFPN proposé, nous concevons et entraînons un puissant détecteur d'objets en une étape appelé M2Det en l'intégrant à l'architecture SSD, qui offre des performances de détection supérieures à celles des détecteurs d'objets en une étape actuellement au stade avancé. Plus précisément, sur le banc d'essai MS-COCO, M2Det atteint un AP (Average Precision) de 41,0 à une vitesse de 11,8 FPS avec une stratégie d'inférence mono-échelle et un AP de 44,2 avec une stratégie d'inférence multi-échelles, ce qui constitue les nouveaux résultats au stade avancé parmi les détecteurs d'objets en une étape. Le code sera rendu disponible sur \url{https://github.com/qijiezhao/M2Det}.