Segmentation D'image De Référence
La segmentation d'image de référence (RIS) vise à segmenter les objets cibles référencés par des expressions en langage naturel. Cependant, les méthodes précédentes reposent sur l’hypothèse forte selon laquelle une phrase doit décrire un objet dans une image, ce qui n’est souvent pas le cas dans les applications du monde réel. Par conséquent, ces méthodes échouent lorsque l’expression ne fait référence à aucun objet ou à plusieurs objets.
L’objectif de la segmentation d’images référentielles est de segmenter les référents à travers une expression en langage naturel. En raison des différentes propriétés de données entre le texte et les images, il est difficile pour le réseau d’aligner correctement le texte et les fonctionnalités au niveau des pixels.