HyperAIHyperAI
il y a 11 jours

APANet : Réseau de Alignement de Prototypes Adaptatifs pour la Segmentation Sémantique à Peu de Fiches

Jiacheng Chen, Bin-Bin Gao, Zongqing Lu, Jing-Hao Xue, Chengjie Wang, Qingmin Liao
APANet : Réseau de Alignement de Prototypes Adaptatifs pour la Segmentation Sémantique à Peu de Fiches
Résumé

La segmentation sémantique à peu d'exemples vise à segmenter des objets de classes nouvelles dans une image de requête donnée, en ne disposant que de quelques images étiquetées en tant qu’images d’appui. La plupart des solutions avancées reposent sur un cadre d’apprentissage de métriques, qui effectue la segmentation en appariant chaque caractéristique de requête à un prototype spécifique à la classe appris. Toutefois, ce cadre souffre d’une classification biaisée en raison de comparaisons de caractéristiques incomplètes. Pour résoudre ce problème, nous proposons une représentation adaptative des prototypes en introduisant à la fois des prototypes spécifiques à la classe et des prototypes agnostiques à la classe, permettant ainsi de construire des paires d’échantillons complètes pour l’apprentissage de l’alignement sémantique avec les caractéristiques de requête. Ce mécanisme d’apprentissage des caractéristiques complémentaires enrichit efficacement les comparaisons de caractéristiques et contribue à obtenir un modèle de segmentation non biaisé dans le cadre du peu d’exemples. Notre approche est mise en œuvre via un réseau à deux branches en boucle complète (c’est-à-dire une branche spécifique à la classe et une branche agnostique à la classe), qui génère des prototypes puis combine les caractéristiques de requête pour effectuer les comparaisons. En outre, la branche agnostique à la classe proposée est simple mais efficace : en pratique, elle peut générer de manière adaptative plusieurs prototypes agnostiques à la classe pour les images de requête et apprendre l’alignement des caractéristiques de manière auto-contrastive. Des expériences étendues sur les jeux de données PASCAL-5$^i$ et COCO-20$^i$ démontrent l’efficacité supérieure de notre méthode. Sans perte d’efficacité d’inférence, notre modèle atteint des résultats de pointe dans les configurations 1-shot et 5-shot pour la segmentation sémantique.