Détection d'objets avec peu d'exemples grâce à la communication entre modèles

Dans cet article, nous étudions la détection d'objets en utilisant un grand ensemble d'images non étiquetées et seulement quelques images étiquetées par catégorie, une approche nommée « détection d'objets à partir de quelques exemples » (few-example object detection). Le défi principal consiste à générer le plus possible d'échantillons d'entraînement fiables à partir de ce grand ensemble. En utilisant peu d'exemples d'entraînement comme graines, notre méthode alterne entre l'entraînement du modèle et la sélection d'échantillons à haute confiance. Lors de l'entraînement, les échantillons faciles sont générés en premier, puis le modèle mal initialisé subit des améliorations. À mesure que le modèle devient plus discriminant, des échantillons difficiles mais fiables sont sélectionnés. Après cela, une autre phase d'amélioration du modèle a lieu. Pour améliorer davantage la précision et le rappel des échantillons d'entraînement générés, nous intégrons plusieurs modèles de détection dans notre cadre, ce qui a été prouvé être supérieur à la méthode mono-modèle de base et à la méthode de combinaison de modèles (model ensemble method). Les expériences menées sur PASCAL VOC'07, MS COCO'14 et ILSVRC'13 indiquent que, même avec seulement trois ou quatre échantillons sélectionnés pour chaque catégorie, notre méthode produit des résultats très compétitifs par rapport aux approches faiblement supervisées les plus avancées utilisant un grand nombre d'étiquettes au niveau des images.