Vous récoltez ce que vous avez semé : utiliser des vidéos pour générer des propositions d'objets à haute précision pour la détection d'objets faiblement supervisée

Nous proposons une nouvelle approche utilisant les vidéos pour obtenir des propositions d'objets à haute précision dans le cadre de la détection d'objets faiblement supervisée. Les méthodes existantes de détection faiblement supervisée s'appuient sur des méthodes standard de génération de propositions, telles que les edge boxes ou le selective search, afin d'obtenir des boîtes candidates. Ces méthodes offrent un haut taux de rappel, mais au prix de milliers de propositions bruitées. Ainsi, la tâche entière de la recherche des rares régions pertinentes est transférée à l'étape ultérieure d'extraction d'objets. Pour atténuer ce problème, nous nous concentrons plutôt sur l'amélioration de la précision des propositions initiales d'objets candidates. Étant donné que nous ne pouvons pas compter sur des annotations de localisation, nous recourons aux vidéos et exploitons les indices de mouvement pour estimer automatiquement l'étendue des objets, afin d'entraîner un réseau de propositions de régions faiblement supervisé (W-RPN). Nous utilisons ensuite le W-RPN pour générer des propositions d'objets à haute précision, qui servent à ré-évaluer les propositions à haut rappel, telles que les edge boxes ou le selective search, en fonction de leur chevauchement spatial. Nos propositions issues du W-RPN entraînent une amélioration significative des performances des méthodes d'état de l'art en détection d'objets faiblement supervisée sur les jeux de données PASCAL VOC 2007 et 2012.