Pondération de caractéristiques et boosting pour la segmentation en peu d'exemples

Cet article traite de la segmentation d'objets de premier plan dans les images en régime de peu d'exemples (few-shot segmentation). Nous entraînons un réseau de neurones convolutif (CNN) sur de petits sous-ensembles d'images d'entraînement, chacun simulant une configuration de peu d'exemples. Dans chaque sous-ensemble, une image est utilisée comme requête (query), tandis que les autres servent d'images d'appui (support) munies de masques de segmentation vérité terrain. Le CNN extrait d'abord des cartes de caractéristiques à partir de l'image requête et des images d'appui. Ensuite, un vecteur de caractéristiques de classe est calculé comme la moyenne des cartes de caractéristiques des images d'appui sur la région connue du premier plan. Enfin, l'objet cible est segmenté dans l'image requête en utilisant la similarité cosinus entre ce vecteur de caractéristiques de classe et les cartes de caractéristiques de l'image requête. Nous apportons deux contributions principales : (1) améliorer la discriminativité des caractéristiques, de manière à ce que leurs activations soient élevées sur le premier plan et faibles ailleurs ; et (2) améliorer l'inférence en utilisant un ensemble d'experts guidé par le gradient de la perte engendrée lors de la segmentation des images d'appui au moment du test. Nos évaluations sur les jeux de données PASCAL-$5^i$ et COCO-$20^i$ montrent que notre méthode surpasse significativement les approches existantes.