Vers des détecteurs d'objets à une étape peu nombreux discriminatifs et transférables

Les modèles récents de détection d’objets nécessitent de grandes quantités de données annotées pour l’apprentissage de nouvelles classes d’objets. La détection d’objets en peu d’exemples (FSOD, few-shot object detection) vise à résoudre ce problème en apprenant de nouvelles classes à partir de très peu d’exemples. Bien que des résultats compétitifs aient été obtenus avec des détecteurs FSOD à deux étapes, les détecteurs à une seule étape présentent généralement des performances inférieures. Nous observons que l’écart important de performance entre les détecteurs à deux étapes et ceux à une seule étape provient principalement d’une faible discriminabilité, phénomène expliqué par un champ réceptif post-fusion réduit et un nombre insuffisant d’exemples d’objets (foreground) dans la fonction de perte. Pour pallier ces limites, nous proposons le Few-shot RetinaNet (FSRN), composé de : une stratégie d’entraînement multi-voies permettant d’augmenter le nombre d’exemples d’objets pour les méta-détecteurs denses, une fusion précoce des caractéristiques à plusieurs niveaux offrant un champ réceptif étendu couvrant l’ensemble de la zone d’ancrage, ainsi que deux techniques d’augmentation appliquées aux images de requête et aux images sources afin d’améliorer la transférabilité. Des expériences étendues montrent que l’approche proposée surmonte ces limitations et améliore à la fois la discriminabilité et la transférabilité. Le FSRN est presque deux fois plus rapide que les détecteurs FSOD à deux étapes tout en maintenant une précision compétitive, et il surpasser les meilleurs modèles à une seule étape ainsi que certains détecteurs à deux étapes sur les benchmarks MS-COCO et PASCAL VOC.