Localiser pour Classifier et Classifier pour Localiser : Une Guidance Mutuelle dans la Détection d'Objets

La plupart des détecteurs d'objets basés sur l'apprentissage profond reposent sur le mécanisme d'ancrage et utilisent le taux d'intersection sur union (IoU) entre les boîtes d'ancrage prédéfinies et les boîtes vérité terrain pour évaluer la qualité d'appariement entre les ancres et les objets. Dans cet article, nous remettons en question cette utilisation de l'IoU et proposons un nouveau critère d'appariement d'ancres, guidé pendant la phase d'entraînement par l'optimisation simultanée des tâches de localisation et de classification : les prédictions relatives à une tâche sont utilisées pour attribuer dynamiquement des ancres d'échantillonnage afin d'améliorer la performance sur l'autre tâche, et réciproquement. Malgré la simplicité de la méthode proposée, nos expériences menées sur différentes architectures d'apprentissage profond de pointe, sur les jeux de données PASCAL VOC et MS COCO, démontrent l'efficacité et la généralité de notre stratégie de guidage mutuel.