HyperAIHyperAI
il y a 11 jours

Apprentissage de prototypes orthogonaux pour la segmentation sémantique à peu de exemples généralisée

{Ting Yao, Yongdong Zhang, Hongtao Xie, Zhaofan Qiu, Yiheng Zhang, Sun-Ao Liu}
Apprentissage de prototypes orthogonaux pour la segmentation sémantique à peu de exemples généralisée
Résumé

La segmentation sémantique à peu de exemples généralisée (GFSS) consiste à distinguer simultanément les pixels appartenant aux classes de base et aux classes nouvelles par rapport au fond, en s’appuyant sur des données abondantes pour les classes de base et un petit nombre d’exemples pour les classes nouvelles. Une approche typique de GFSS repose sur deux phases d’entraînement : l’apprentissage des classes de base, suivie de la mise à jour des classes nouvelles. Toutefois, ce processus de mise à jour indépendant compromet souvent les caractéristiques bien apprises sur les classes de base, entraînant une baisse de performance sur celles-ci. Dans cet article, nous proposons une nouvelle approche fondée sur la projection sur des prototypes orthogonaux (POP), qui met à jour les caractéristiques pour identifier les classes nouvelles sans nuire aux performances sur les classes de base. POP construit un ensemble de prototypes orthogonaux, chacun représentant une classe sémantique, et effectue les prédictions pour chaque classe de manière indépendante en projetant les caractéristiques sur son prototype correspondant. Techniquement, POP apprend d’abord les prototypes à partir des données de base, puis étend cet ensemble aux classes nouvelles. La contrainte d’orthogonalité imposée par POP favorise l’orthogonalité entre les prototypes appris, ce qui atténue l’impact sur les caractéristiques des classes de base lors de la généralisation vers les prototypes des classes nouvelles. En outre, nous exploitons le résidu de la projection des caractéristiques comme représentation du fond, permettant ainsi une adaptation dynamique aux changements sémantiques (le fond ne contenant plus les pixels des classes nouvelles lors de la phase de mise à jour). Des expériences étendues sur deux benchmarks montrent que notre méthode POP atteint des performances supérieures sur les classes nouvelles sans sacrifier significativement la précision sur les classes de base. Notamment, POP dépasse de 3,93 % en moyenne en mIoU l’état de l’art basé sur le fine-tuning sur PASCAL-5i dans le scénario 5-shot.

Apprentissage de prototypes orthogonaux pour la segmentation sémantique à peu de exemples généralisée | Articles de recherche récents | HyperAI