HyperAIHyperAI
il y a 2 mois

Calibration de la prédiction pour la segmentation sémantique généralisée en few-shot

Lu, Zhihe ; He, Sen ; Li, Da ; Song, Yi-Zhe ; Xiang, Tao
Calibration de la prédiction pour la segmentation sémantique généralisée en few-shot
Résumé

La segmentation sémantique à quelques exemples généralisée (GFSS) vise à segmenter chaque pixel d'une image en classes de base pour lesquelles il existe de nombreux exemples d'entraînement ou en classes nouvelles pour lesquelles il n'y a que très peu d'images d'entraînement par classe (par exemple, 1-5). Comparée à la segmentation sémantique à quelques exemples (FSS), largement étudiée et limitée à la segmentation des classes nouvelles, la GFSS est beaucoup moins explorée malgré son caractère plus pratique. Les approches existantes pour la GFSS reposent sur une fusion des paramètres du classifieur, combinant un classifieur de classe nouvelle nouvellement entraîné et un classifieur de classe de base pré-entraîné. Étant donné que les données d'entraînement sont dominées par les classes de base, cette méthode est inévitablement biaisée en faveur des classes de base.Dans ce travail, nous proposons un nouveau réseau de calibration des prédictions (PCN) pour résoudre ce problème. Au lieu de fusionner les paramètres du classifieur, nous fusionnons les scores produits séparément par les classifieurs de base et nouveaux. Pour garantir que les scores fusionnés ne soient pas biaisés vers les classes de base ou nouvelles, nous introduisons un nouveau module de calibration basé sur le Transformer. Il est connu que les caractéristiques de niveau inférieur sont plus utiles pour détecter les informations sur les contours dans une image d'entrée que celles de niveau supérieur. Par conséquent, nous construisons un module d'attention croisée qui guide la prédiction finale du classifieur en utilisant les caractéristiques multi-niveaux fusionnées.Cependant, les Transformers sont exigeants en termes de calcul. De manière cruciale, pour rendre l'entraînement du module d'attention croisée proposé réalisable au niveau des pixels, ce module est conçu sur la base de la covariance croisée entre caractéristiques et scores et entraîné épisodiquement afin qu'il soit généralisable lors des inférences. Des expériences approfondies menées sur PASCAL-$5^{i}$ et COCO-$20^{i}$ montrent que notre PCN surpass largement les alternatives state-of-the-art.Note: - "Generalized Few-shot Semantic Segmentation" est traduit par "segmentation sémantique à quelques exemples généralisée" (GFSS).- "Few-shot Semantic Segmentation" est traduit par "segmentation sémantique à quelques exemples" (FSS).- "Prediction Calibration Network" est traduit par "réseau de calibration des prédictions" (PCN).- Les noms des datasets "PASCAL-$5^{i}$" et "COCO-$20^{i}$" sont conservés tels quels car ils sont généralement utilisés sous ces formes dans la littérature scientifique francophone.

Calibration de la prédiction pour la segmentation sémantique généralisée en few-shot | Articles de recherche récents | HyperAI