11 天前

带描述感知一致性的指代表达目标分割

Yi-Wen Chen, Yi-Hsuan Tsai, Tiantian Wang, Yen-Yu Lin, Ming-Hsuan Yang

摘要

指代表达是用于在场景中识别特定对象的自然语言描述，在日常交流中被广泛使用。本文聚焦于根据指代表达对图像中的目标对象进行分割。为此，我们提出了一种端到端可训练的语义理解网络，该网络包含语言编码器和视觉编码器，用于从语言和视觉两个模态中提取特征表示。我们引入了空间感知的动态滤波器，实现从文本到图像的知识迁移，并有效捕捉指定对象的空间信息。为增强语言模块与视觉模块之间的交互，我们采用了一个图像描述生成网络，以跨模态共享的特征作为输入，通过一致性约束机制，使生成的句子与给定的指代表达保持相似，从而共同优化两个模态的表示。我们在两个指代表达数据集上对所提出的框架进行了评估，实验结果表明，该方法在性能上优于现有的最先进算法。