Réseau hiérarchique de pyramide de caractéristiques à fusion bi-résiduelle parallèle pour une détection d'objets unique et précise

Cet article propose un réseau de pyramide de caractéristiques à fusion bi-directionnelle parallèle à résidus (PRB-FPN) pour une détection d'objets en une seule passe rapide et précise. La pyramide de caractéristiques (FP) est largement utilisée dans les méthodes récentes de détection visuelle, mais son chemin haut-bas ne parvient pas à préserver une localisation précise en raison du décalage introduit par le pooling. L'avantage de la FP diminue lorsque des architectures plus profondes, comportant davantage de couches, sont employées. De plus, elle peine à assurer une détection précise à la fois des objets petits et des objets grands simultanément. Pour surmonter ces limitations, nous proposons une nouvelle structure de FP parallèle avec une fusion bidirectionnelle (haut-bas et bas-haut), accompagnée d'améliorations visant à préserver des caractéristiques de haute qualité pour une localisation précise. Nous introduisons les améliorations suivantes : (1) une structure de FP à fusion bi-directionnelle parallèle, incluant un module de fusion bas-haut (BFM), permettant de détecter avec une haute précision à la fois les petits et les grands objets en une seule étape. (2) Un module de concaténation et de réorganisation (CORE) fournit un chemin bas-haut pour la fusion des caractéristiques, permettant ainsi une fusion bidirectionnelle qui permet de récupérer les informations perdues dans les cartes de caractéristiques de niveaux inférieurs. (3) Les caractéristiques CORE sont ensuite affinées pour préserver des informations contextuelles plus riches. Ce processus d'affinement CORE peut être réalisé en seulement quelques itérations dans les deux chemins (haut-bas et bas-haut). (4) L'ajout d'une architecture résiduelle au module CORE donne naissance à un nouveau module appelé Re-CORE, qui facilite l'entraînement et permet une intégration aisée avec une large gamme d'architectures plus profondes ou plus légères. Le réseau proposé atteint des performances de pointe sur les jeux de données UAVDT17 et MS COCO. Le code est disponible à l'adresse suivante : https://github.com/pingyang1117/PRBNet_PyTorch.