
摘要
指代表达是用于在场景中识别特定对象的自然语言描述,在日常交流中被广泛使用。本文聚焦于根据指代表达对图像中的目标对象进行分割。为此,我们提出了一种端到端可训练的语义理解网络,该网络包含语言编码器和视觉编码器,用于从语言和视觉两个模态中提取特征表示。我们引入了空间感知的动态滤波器,实现从文本到图像的知识迁移,并有效捕捉指定对象的空间信息。为增强语言模块与视觉模块之间的交互,我们采用了一个图像描述生成网络,以跨模态共享的特征作为输入,通过一致性约束机制,使生成的句子与给定的指代表达保持相似,从而共同优化两个模态的表示。我们在两个指代表达数据集上对所提出的框架进行了评估,实验结果表明,该方法在性能上优于现有的最先进算法。