Un FPN débruitant avec Transformer R-CNN pour la détection d'objets microscopiques

Malgré les progrès notables réalisés dans le domaine de la vision par ordinateur, la détection précise des objets de petite taille reste un défi majeur, en grande partie en raison de la représentation en pixels extrêmement réduite attribuée à ces objets dans les données d’image. Ce défi revêt une importance particulière dans le domaine des sciences de la Terre et de la télédétection, où une détection de haute fidélité des objets minuscules peut soutenir un large éventail d’applications, allant de la planification urbaine à la surveillance environnementale. Dans cet article, nous proposons un nouveau cadre, nommé DeNoising FPN avec Trans R-CNN (DNTR), visant à améliorer les performances de détection des objets de petite taille. DNTR repose sur une architecture facilement intégrable, le DN-FPN (DeNoising Feature Pyramid Network), et un détecteur basé sur le Transformer, Trans R-CNN. Plus précisément, la fusion de caractéristiques dans le réseau pyramidale de caractéristiques (FPN) joue un rôle crucial dans la détection d’objets multiscales. Toutefois, des caractéristiques bruitées peuvent surgir au cours du processus de fusion, en raison de l’absence de régularisation entre les caractéristiques provenant de différentes échelles. Ainsi, nous introduisons un module DN-FPN qui utilise l’apprentissage contrastif pour supprimer le bruit au sein des caractéristiques à chaque niveau de la voie ascendante du FPN. Ensuite, sur la base d’un cadre à deux étapes, nous remplaçons le détecteur R-CNN obsolète par un nouveau détecteur Trans R-CNN, conçu pour mieux capturer la représentation des objets minuscules grâce à l’attention auto-associative. Les résultats expérimentaux montrent que notre DNTR surpasser les modèles de référence respectivement de 17,4 % en APvt sur le jeu de données AI-TOD et de 9,6 % en AP sur le jeu de données VisDrone. Le code source sera mis à disposition à l’adresse suivante : https://github.com/hoiliu-0801/DNTR.