HyperAIHyperAI
il y a 2 mois

GRES : Segmentation d'Expressions de Référence Généralisées

Liu, Chang ; Ding, Henghui ; Jiang, Xudong
GRES : Segmentation d'Expressions de Référence Généralisées
Résumé

La segmentation d'expressions de référence (RES) vise à générer un masque de segmentation pour l'objet décrit par une expression linguistique donnée. Les jeux de données et les méthodes classiques de RES prennent généralement en charge uniquement les expressions à cible unique, c'est-à-dire qu'une expression fait référence à un seul objet cible. Les expressions à cibles multiples et sans cible ne sont pas considérées. Cela limite l'utilisation de la RES en pratique. Dans cet article, nous introduisons un nouveau benchmark appelé Segmentation d'Expressions de Référence Généralisée (GRES), qui étend la RES classique pour permettre aux expressions de faire référence à un nombre arbitraire d'objets cibles. À cette fin, nous avons construit le premier jeu de données GRES à grande échelle, appelé gRefCOCO, qui contient des expressions à cibles multiples, sans cible et à cible unique. Le GRES et le gRefCOCO sont conçus pour être parfaitement compatibles avec la RES, facilitant ainsi des expériences approfondies pour étudier l'écart de performance des méthodes existantes de RES sur la tâche GRES. Dans notre étude expérimentale, nous constatons que l'un des grands défis du GRES est la modélisation des relations complexes. Sur cette base, nous proposons une méthode basée sur les régions pour le GRES, appelée ReLA, qui divise adaptativement l'image en régions contenant des indices sous-instance, et modélise explicitement les dépendances région-région et région-langue. L'approche proposée ReLA atteint de nouvelles performances d'état de l'art tant sur les tâches GRES nouvellement proposées que sur les tâches RES classiques. Le jeu de données gRefCOCO et la méthode proposée sont disponibles à l'adresse suivante : https://henghuiding.github.io/GRES.