SpotNet : Réseau Multi-Tâches à Auto-Attention pour la Détection d'Objets

Les êtres humains sont particulièrement doués pour diriger leur attention visuelle vers des zones pertinentes lorsqu’ils cherchent différents types d’objets. Par exemple, lorsqu’on cherche des voitures, on regarde principalement les routes, et non le sommet des immeubles. L’objectif de cet article est de former un réseau neuronal à accomplir la même tâche à l’aide d’une approche d’apprentissage multi-tâches. Pour entraîner l’attention visuelle, nous générons des étiquettes de segmentation fond/plan arrière de manière semi-supervisée, en utilisant des méthodes telles que la soustraction de fond ou le flux optique. À l’aide de ces étiquettes, nous entraînons un modèle de détection d’objets afin qu’il produise à la fois des cartes de segmentation fond/plan arrière et des boîtes englobantes, tout en partageant la majeure partie des paramètres du modèle. Nous intégrons ces cartes de segmentation à l’intérieur du réseau comme mécanisme d’attention auto-référentielle, afin de pondérer la carte de caractéristiques utilisée pour la prédiction des boîtes englobantes, réduisant ainsi le signal provenant des zones non pertinentes. Nous démontrons que cette méthode permet d’obtenir une amélioration significative du mAP sur deux jeux de données de surveillance routière, atteignant des résultats de pointe sur les bases UA-DETRAC et UAVDT.