Segmentation de référence multimodale : une revue

La segmentation référentielle multimodale vise à segmenter des objets cibles dans des scènes visuelles — telles que des images, des vidéos ou des scènes 3D — à partir d’expressions référentielles formulées sous forme de texte ou d’audio. Cette tâche joue un rôle essentiel dans les applications pratiques nécessitant une perception précise des objets en réponse à des instructions utilisateur. Au cours de la dernière décennie, elle a suscité un intérêt croissant au sein de la communauté multimodale, portée par les progrès réalisés dans les réseaux de neurones convolutionnels, les modèles transformer et les grands modèles linguistiques, qui ont tous considérablement renforcé les capacités de perception multimodale. Ce papier présente une revue exhaustive de la segmentation référentielle multimodale. Nous commençons par exposer le contexte de ce domaine, incluant les définitions du problème et les jeux de données couramment utilisés. Ensuite, nous proposons une architecture méta unifiée pour la segmentation référentielle, puis passons en revue des méthodes représentatives dans trois scènes visuelles principales : images, vidéos et scènes 3D. Nous abordons également les approches de Generalized Referring Expression (GREx), conçues pour faire face aux défis posés par la complexité du monde réel, ainsi que les tâches connexes et les applications pratiques. Une comparaison exhaustive des performances sur des benchmarks standards est également fournie. Nous mettons régulièrement à jour l’état de l’art lié à ce domaine à l’adresse suivante : https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation.