Mask Grounding pour la segmentation d'images par référence

La segmentation d’images par référence (Referring Image Segmentation, RIS) est une tâche difficile qui consiste à segmenter des objets mentionnés à l’aide d’expressions linguistiques libres. Malgré les progrès significatifs réalisés ces dernières années, la plupart des méthodes de pointe (SOTA) souffrent encore d’un écart important entre les modalités image-langage, tant au niveau pixel que mot. Ces approches reposent généralement sur : 1) des caractéristiques linguistiques au niveau de la phrase pour l’alignement image-langage, et 2) manquent de supervision explicite pour le repérage visuel fin. En conséquence, elles présentent une correspondance faible au niveau des objets entre les caractéristiques visuelles et linguistiques. Sans caractéristiques bien ancrées, les méthodes précédentes peinent à comprendre des expressions complexes nécessitant un raisonnement poussé sur les relations entre plusieurs objets, en particulier lorsqu’elles impliquent des clauses rares ou ambigües. Pour relever ce défi, nous introduisons une nouvelle tâche auxiliaire, le Mask Grounding, qui améliore considérablement le repérage visuel au sein des représentations linguistiques, en enseignant explicitement au modèle à établir une correspondance fine entre des jetons textuels masqués et leurs objets visuels correspondants. Le Mask Grounding peut être directement intégré aux méthodes RIS existantes et apporte systématiquement des améliorations. Par ailleurs, pour traiter de manière holistique l’écart entre modalités, nous avons également conçu une perte d’alignement cross-modale ainsi qu’un module d’alignement complémentaire. Ces éléments s’associent de manière synergique au Mask Grounding. Grâce à l’ensemble de ces techniques, notre approche globale se concrétise dans MagNet (Mask-grounded Network), une architecture qui surpasses significativement les méthodes antérieures sur trois benchmarks clés (RefCOCO, RefCOCO+ et G-Ref), démontrant ainsi l’efficacité de notre méthode face aux limites actuelles des algorithmes de RIS. Le code source et les poids pré-entraînés seront publiés.