HyperAIHyperAI
il y a 2 mois

MaskRIS : Augmentation de données prenant en compte la distorsion sémantique pour le segmention d'images par référence

Minhyun Lee, Seungho Lee, Song Park, Dongyoon Han, Byeongho Heo, Hyunjung Shim
MaskRIS : Augmentation de données prenant en compte la distorsion sémantique pour le segmention d'images par référence
Résumé

Le Segmentation d'Image par Référence (SIR) est une tâche avancée de vision-langage qui consiste à identifier et segmenter des objets au sein d'une image en fonction de descriptions textuelles libres. Bien que les études précédentes se soient concentrées sur l'alignement des caractéristiques visuelles et linguistiques, les techniques d'entraînement, telles que l'augmentation de données, restent sous-explorées. Dans ce travail, nous explorons une augmentation de données efficace pour le SIR et proposons un nouveau cadre d'entraînement appelé Segmentation d'Image par Référence Masquée (MaskRIS). Nous constatons que les augmentations d'image conventionnelles sont insuffisantes pour le SIR, entraînant une dégradation des performances, tandis qu'un masquage aléatoire simple améliore considérablement les performances du SIR. MaskRIS utilise à la fois le masquage d'image et de texte, suivi par un apprentissage contextuel conscient des distorsions (DCL) afin d'exploiter pleinement les avantages de la stratégie de masquage. Cette approche peut améliorer la robustesse du modèle face aux occultations, aux informations incomplètes et aux complexités linguistiques variées, aboutissant à une amélioration significative des performances. Les expériences montrent que MaskRIS peut être facilement appliqué à divers modèles de SIR, surpassant les méthodes existantes dans les cadres supervisés de manière complète et faiblement supervisés. Enfin, MaskRIS atteint de nouvelles performances record sur les jeux de données RefCOCO, RefCOCO+ et RefCOCOg. Le code est disponible sur https://github.com/naver-ai/maskris.

MaskRIS : Augmentation de données prenant en compte la distorsion sémantique pour le segmention d'images par référence | Articles de recherche récents | HyperAI