Réseau d'enrichissement de caractéristiques guidé par les connaissances préalables pour la segmentation à faibles exemples

Les méthodes de segmentation sémantique de pointe nécessitent une quantité suffisante de données étiquetées pour atteindre de bons résultats, et peinent fortement à s'adapter à des classes non vues sans ajustement fin (fine-tuning). Le problème est donc abordé par la segmentation à peu d'exemples (few-shot segmentation), qui vise à apprendre un modèle capable de s'adapter rapidement à de nouvelles classes à partir de très peu d'exemples d'appui étiquetés. Toutefois, ces cadres restent confrontés à une réduction de leur capacité de généralisation sur des classes non vues, due à une utilisation inappropriée des informations sémantiques de haut niveau des classes d'entraînement, ainsi qu'à une incohérence spatiale entre les cibles de requête et celles d'appui. Pour atténuer ces problèmes, nous proposons le Réseau d'Enrichissement de Fonctionnalités Guidé par un Préalable (PFENet). Il repose sur deux innovations : (1) une méthode de génération de masques préalables sans entraînement, qui préserve la capacité de généralisation tout en améliorant les performances du modèle ; et (2) un Module d'Enrichissement de Fonctionnalités (FEM), qui surmonte l'incohérence spatiale en enrichissant adaptativement les fonctionnalités de requête à l'aide des fonctionnalités d'appui et des masques préalables. Des expériences étendues sur les jeux de données PASCAL-5$^i$ et COCO démontrent que la méthode proposée de génération de préalables ainsi que le module FEM améliorent significativement la méthode de base. Notre PFENet surpasser également largement les méthodes de pointe, sans perte d'efficacité. Il est surprenant que notre modèle parvienne même à généraliser dans des cas où aucun exemple d'appui étiqueté n'est disponible. Le code source est disponible à l'adresse suivante : https://github.com/Jia-Research-Lab/PFENet/.