MFNet : Réseau de segmentation à peu d'exemples pour plusieurs classes avec apprentissage de métrique au niveau des pixels

Dans les tâches de reconnaissance visuelle, l’apprentissage à très peu d’exemples (few-shot learning) nécessite la capacité d’apprendre de nouvelles catégories d’objets à partir d’un nombre restreint d’exemples de support. Son regain de popularité, en lien avec le développement des réseaux de neurones profonds, s’est principalement concentré sur la classification d’images. Ce travail se concentre sur la segmentation sémantique à très peu d’exemples, un domaine encore largement peu exploré. Les avancées récentes sont souvent limitées à la segmentation à très peu d’exemples pour une seule classe. Dans cet article, nous proposons tout d’abord une nouvelle architecture d’encodage et de décodage multi-voies (multi-class) qui fusionne efficacement les informations multi-échelles issues de la requête et les informations multi-classes provenant des exemples de support en un unique vecteur d’incrustation (embedding) requête-support. La segmentation multi-classes est directement décodée à partir de cet embedding. Pour améliorer la fusion des caractéristiques, nous introduisons un mécanisme d’attention multi-niveaux au sein de l’architecture, comprenant une attention pour la modulation des caractéristiques de support et une attention pour la combinaison multi-échelles. Enfin, afin d’améliorer l’apprentissage de l’espace d’incrustation, un module supplémentaire d’apprentissage métrique à niveau de pixel est intégré, basé sur une perte triplet (triplet loss) formulée sur les incrustations au niveau pixel de l’image d’entrée. Des expérimentations étendues sur les benchmarks standards PASCAL-5i et COCO-20i démontrent clairement les avantages de notre méthode par rapport aux états de l’art en segmentation à très peu d’exemples.