HyperAIHyperAI

Command Palette

Search for a command to run...

带描述感知一致性的指代表达目标分割

Yi-Wen Chen Yi-Hsuan Tsai Tiantian Wang Yen-Yu Lin Ming-Hsuan Yang

摘要

指代表达是用于在场景中识别特定对象的自然语言描述,在日常交流中被广泛使用。本文聚焦于根据指代表达对图像中的目标对象进行分割。为此,我们提出了一种端到端可训练的语义理解网络,该网络包含语言编码器和视觉编码器,用于从语言和视觉两个模态中提取特征表示。我们引入了空间感知的动态滤波器,实现从文本到图像的知识迁移,并有效捕捉指定对象的空间信息。为增强语言模块与视觉模块之间的交互,我们采用了一个图像描述生成网络,以跨模态共享的特征作为输入,通过一致性约束机制,使生成的句子与给定的指代表达保持相似,从而共同优化两个模态的表示。我们在两个指代表达数据集上对所提出的框架进行了评估,实验结果表明,该方法在性能上优于现有的最先进算法。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
带描述感知一致性的指代表达目标分割 | 论文 | HyperAI超神经