HyperAIHyperAI
il y a 12 jours

MIANet : Agrégation d'informations d'instances non biaisées et d'informations générales pour la segmentation sémantique à peu de exemples

Yong Yang, Qiong Chen, Yuan Feng, Tianlin Huang
MIANet : Agrégation d'informations d'instances non biaisées et d'informations générales pour la segmentation sémantique à peu de exemples
Résumé

Les méthodes existantes de segmentation à faible exemple reposent sur une stratégie d’apprentissage métacognitif, extrayant des connaissances sur les instances à partir d’un ensemble de support, puis les appliquant pour segmenter les objets cibles dans un ensemble de requête. Toutefois, les connaissances extraites s’avèrent insuffisantes pour faire face aux différences intra-classes variables, car elles sont obtenues à partir d’un petit nombre d’échantillons dans l’ensemble de support. Pour résoudre ce problème, nous proposons un réseau d’agrégation d’informations multiples (MIANet), qui exploite efficacement à la fois les connaissances générales, à savoir les embeddings sémantiques de mots, et les informations d’instance pour assurer une segmentation précise. Plus précisément, dans MIANet, un module d’information générale (GIM) est conçu pour extraire un prototype de classe général à partir des embeddings sémantiques, en complément des informations d’instance. À cette fin, nous introduisons une perte triplet qui considère le prototype de classe général comme un point d’ancrage, tout en extrayant des paires positives-négatives à partir des caractéristiques locales de l’ensemble de support. La perte triplet calculée permet ainsi de transférer les similarités sémantiques entre les identités linguistiques, depuis l’espace des embeddings de mots vers l’espace de représentation visuelle. Pour atténuer le biais du modèle en faveur des classes déjà vues durant l’entraînement et pour obtenir des informations à plusieurs échelles, nous introduisons ensuite un module hiérarchique a-paramétrique de priorité (HPM), qui génère des informations au niveau des instances de manière non biaisée en calculant la similarité au niveau des pixels entre les caractéristiques des images de support et celles des images de requête. Enfin, un module d’agrégation d’information (IFM) fusionne les informations générales et les informations d’instance afin de produire des prédictions pour l’image de requête. Des expériences étendues sur les jeux de données PASCAL-5i et COCO-20i montrent que MIANet atteint des performances supérieures et établit un nouveau record d’état de l’art. Le code est disponible à l’adresse suivante : https://github.com/Aldrich2y/MIANet.