Réseaux de convolution en cascade faiblement supervisés

La détection d'objets est une tâche complexe dans le domaine de la compréhension visuelle, et cela devient encore plus difficile lorsque la supervision est faible. Récemment, quelques efforts prometteurs ont été entrepris pour aborder cette tâche sans recourir à des annotations humaines coûteuses, grâce à l'utilisation de réseaux neuronaux profonds. Une nouvelle architecture de réseaux en cascade a été proposée pour apprendre un réseau neuronal convolutif (CNN) dans ces conditions. Nous présentons deux telles architectures, l'une avec deux étapes en cascade et l'autre avec trois, qui sont formées dans un pipeline d'apprentissage de bout en bout. La première étape des deux architectures extrait les meilleures propositions de régions spécifiques à chaque classe en formant un réseau neuronal entièrement convolutif. Dans le cas de l'architecture à trois étapes, la deuxième étape fournit une segmentation d'objets en utilisant les cartes d'activation produites par la première étape. La dernière étape des deux architectures fait partie d'un réseau neuronal convolutif qui effectue un apprentissage par instances multiples sur les propositions extraites lors des étapes précédentes. Nos expériences sur les jeux de données PASCAL VOC 2007, 2010, 2012 et sur des jeux de données d'objets à grande échelle, tels que ILSVRC 2013 et 2014, montrent des améliorations dans les domaines de la détection d'objets faiblement supervisée, de la classification et de la localisation.