Label Anything : Segmentation sémantique à peu de exemples multi-classes avec des prompts visuels

Nous présentons Label Anything, une architecture de réseau neuronal innovante conçue pour la segmentation sémantique en peu d’exemples (few-shot semantic segmentation, FSS), qui démontre une généralisation remarquable sur plusieurs classes avec un nombre minimal d’exemples par classe. À la différence des méthodes traditionnelles de FSS, qui s’appuient principalement sur des masques pour annoter les images de support, Label Anything introduit une variété de prompts visuels — points, boîtes englobantes et masques — améliorant ainsi la polyvalence et l’adaptabilité du cadre. Unique à notre approche, Label Anything est conçu pour un apprentissage end-to-end dans des scénarios multi-classes de FSS, permettant d’apprendre efficacement à partir de diverses configurations de jeux de données de support sans nécessiter de re-entraînement. Cette stratégie permet une application « universelle » à divers défis de FSS, allant de configurations 1-way 1-shot jusqu’à des scénarios complexes N-way K-shot, tout en restant indépendante du nombre spécifique d’exemples par classe. Cette approche innovante réduit les besoins en ressources computationnelles et améliore considérablement l’adaptabilité et la généralisation du modèle sur une large gamme de tâches de segmentation. Notre validation expérimentale approfondie, notamment les résultats de pointe obtenus sur le benchmark COCO-$20^i$, souligne la robustesse et la flexibilité de Label Anything. Le code source est disponible publiquement à l’adresse suivante : https://github.com/pasqualedem/LabelAnything.