Segmentation d'objets par expression référentielle avec cohérence consciente des légendes

Les expressions de référence sont des descriptions en langage naturel qui identifient un objet particulier au sein d'une scène, et sont largement utilisées dans nos conversations quotidiennes. Dans ce travail, nous nous concentrons sur la segmentation de l'objet dans une image spécifié par une expression de référence. À cette fin, nous proposons un réseau d'acquisition de compréhension entraînable de bout en bout, composé d'un encodeur linguistique et d'un encodeur visuel pour extraire des représentations de caractéristiques à partir des deux domaines. Nous introduisons des filtres dynamiques sensibles à l'espace afin de transférer les connaissances du texte vers l'image, et ainsi capturer efficacement les informations spatiales de l'objet spécifié. Pour améliorer la communication entre les modules linguistique et visuel, nous utilisons un réseau de génération de légende qui prend comme entrée des caractéristiques partagées entre les deux domaines, et améliore les deux représentations grâce à une consistance qui impose que la phrase générée soit similaire à l'expression de référence fournie. Nous évaluons le cadre proposé sur deux jeux de données d'expressions de référence et montrons que notre méthode se distingue favorablement par rapport aux algorithmes de pointe.