Un plugin à trois couches pour améliorer la détection des objets occultés

La détection d’objets masqués reste un défi pour les détecteurs d’objets de pointe. L’objectif de ce travail est d’améliorer la détection de tels objets, et par conséquent d’optimiser les performances globales d’un détecteur moderne.À cette fin, nous apportons les quatre contributions suivantes : (1) Nous proposons un module simple « plug-in » pour la tête de détection des détecteurs à deux étapes, visant à améliorer le rappel des objets partiellement masqués. Ce module prédit un masque à trois couches correspondant respectivement à l’objet cible, à l’obstruante (l’objet qui masque) et à l’obstrué (l’objet masqué), ce qui permet une prédiction plus précise du masque de l’objet cible. (2) Nous proposons une chaîne de traitement évolutif pour générer des données d’entraînement destinées à ce module, en exploitant la complétion amodale à partir des jeux de données existants de détection d’objets et de segmentation d’instances afin d’établir des relations de masquage. (3) Nous mettons également en place un jeu de données d’évaluation COCO permettant de mesurer la performance en rappel pour les objets partiellement masqués et séparés. (4) Nous démontrons que l’intégration du module plug-in dans un détecteur à deux étapes permet d’améliorer significativement les performances, en ne fine-tunant que la tête de détection, avec des gains supplémentaires lorsque l’architecture entière est fine-tunée. Les résultats sur COCO sont présentés pour Mask R-CNN utilisant des arrière-plans Swin-T ou Swin-S, ainsi que pour Cascade Mask R-CNN avec un arrière-plan Swin-B.