Segmentation en un seul coup dans le désordre

Nous abordons le problème de la segmentation en un seul coup d'œil (one-shot segmentation) : trouver et segmenter un objet jamais vu auparavant dans une scène encombrée à partir d'un seul exemple d'instruction. Nous proposons un nouveau jeu de données que nous appelons Omniglot encombré (cluttered Omniglot). En utilisant une architecture de base combinant un plongement Siamese pour la détection avec un U-net pour la segmentation, nous montrons que des niveaux croissants d'encombrement rendent la tâche progressivement plus difficile. En évaluant différents aspects du problème avec des modèles oracles ayant accès à diverses quantités d'informations véritables, nous démontrons que, dans ce type de tâche de recherche visuelle, la détection et la segmentation sont deux problèmes intimement liés, dont la solution l'un aide à résoudre l'autre. C'est pourquoi nous introduisons MaskNet, un modèle amélioré qui porte son attention sur plusieurs emplacements candidats, génère des propositions de segmentation pour masquer les éléments de fond encombrés et sélectionne parmi les objets segmentés. Nos résultats suggèrent qu'un tel modèle de reconnaissance d'images basé sur une amélioration itérative de la détection d'objets et de la segmentation du premier plan pourrait offrir une voie pour traiter des scènes hautement encombrées.