Localiser puis Segmenter : Une Pipeline Robuste pour la Segmentation d'Images Référencées

La segmentation d'image par référence vise à segmenter les objets désignés par une expression en langage naturel. Les méthodes précédentes se concentrent généralement sur la conception d'un mécanisme de fusion des caractéristiques visuelles et linguistiques de manière implicite et récurrente, afin de générer directement le masque de segmentation final sans modéliser explicitement les informations de localisation des instances référencées. Pour résoudre ces problèmes, nous abordons cette tâche sous un autre angle en la décomposant en un schéma « Localiser-Puis-Segmenter » (LTS). Étant donné une expression en langage naturel, les personnes tendent généralement à porter leur attention sur les régions d'image correspondantes avant de générer un masque de segmentation précis de l'objet en fonction de son contexte. Le LTS commence par extraire et fusionner les caractéristiques visuelles et textuelles pour obtenir une représentation intermodale, puis applique une interaction intermodale sur les caractéristiques visuelles et textuelles pour localiser l'objet référencé avec un a priori positionnel, et enfin génère le résultat de segmentation à l'aide d'un réseau de segmentation léger. Notre LTS est simple mais étonnamment efficace. Sur trois jeux de données基准数据集 (benchmark datasets) populaires, le LTS surpasses toutes les méthodes précédentes d'excellence (state-of-the-art) avec une marge importante (par exemple, +3,2 % sur RefCOCO+ et +3,4 % sur RefCOCOg). De plus, notre modèle est plus interprétable grâce à la localisation explicite de l'objet, ce qui est également prouvé par des expériences de visualisation. Nous croyons que ce cadre est prometteur pour servir de solide base de référence dans la segmentation d'image par référence.Note: 为了保持术语的专业性和一致性,我在括号中保留了原文中的英文术语 "benchmark datasets" 和 "state-of-the-art"。调整后的翻译:La segmentation d'image par référence vise à segmenter les objets désignés par une expression en langage naturel. Les méthodes précédentes se concentrent généralement sur la conception d'un mécanisme de fusion des caractéristiques visuelles et linguistiques de manière implicite et récurrente, afin de générer directement le masque de segmentation final sans modéliser explicitement les informations de localisation des instances référencées. Pour résoudre ces problèmes, nous abordons cette tâche sous un autre angle en la décomposant en un schéma « Localiser-Puis-Segmenter » (LTS). Étant donné une expression en langage naturel, les personnes tendent généralement à porter leur attention sur les régions d'image correspondantes avant de générer un masque de segmentation précis de l'objet en fonction de son contexte. Le LTS commence par extraire et fusionner les caractéristiques visuelles et textuelles pour obtenir une représentation intermodale, puis applique une interaction intermodale sur ces caractéristiques pour localiser l'objet référencé avec un a priori positionnel, et enfin génère le résultat de segmentation à l'aide d'un réseau neuronal léger pour la segmentation. Notre méthode LTS est simple mais étonnamment efficace. Sur trois jeux de données populaires utilisés comme benchmarks (benchmark datasets), le LTS surpasses toutes les méthodes précédentes considérées comme étant au state-of-the-art avec une marge importante (par exemple, +3,2 % sur RefCOCO+ et +3,4 % sur RefCOCOg). De plus, notre modèle est plus interprétable grâce à la localisation explicite des objets, ce qui est également confirmé par des expériences visuelles. Nous pensons que ce cadre est prometteur pour servir de solide base dans la segmentation d'image par référence.