Réseau hyperrelation basé sur la multi-similarité pour la segmentation à faible apprentissage

La segmentation sémantique à peu d'exemples vise à reconnaître les régions d'objets appartenant à des catégories non vues, en ne disposant que de quelques exemples annotés comme supervision. La clé de la segmentation à peu d'exemples réside dans la construction d'une relation sémantique robuste entre les images de support et les images de requête, tout en évitant le surajustement. Dans cet article, nous proposons un réseau efficace de relations hyperrelationnelles multi-similarités (MSHNet) pour aborder le problème de la segmentation sémantique à peu d'exemples. Dans MSHNet, nous introduisons une nouvelle similarité de prototypes génératifs (GPS), qui, combinée à la similarité cosinus, permet d’établir une relation sémantique forte entre les images de support et celles de requête. La similarité de prototypes générés localement à partir de caractéristiques globales s’ajoute logiquement à la similarité cosinus globale basée sur des caractéristiques locales, permettant ainsi une expression plus complète de la relation entre l’image de requête et l’image de support en exploitant simultanément ces deux mesures de similarité. Par ailleurs, nous proposons dans MSHNet un bloc de fusion symétrique (SMB), permettant une fusion efficace des caractéristiques hyperrelationnelles multi-couches, multi-exemples et multi-similarités. Contrairement aux approches basées sur des caractéristiques spécifiques aux catégories, MSHNet repose fondamentalement sur la similarité, ce qui favorise une unification plus générale et réduit efficacement le surajustement. Sur deux jeux de données standards de segmentation sémantique, Pascal-5i et COCO-20i, MSHNet atteint de nouveaux états de l’art pour les tâches de segmentation sémantique à 1-exemple et à 5-exemples.