7 个月前

多模态表征

计算机视觉

Linwei Ye; Mrigank Rochan; Zhi Liu; Yang Wang

摘要

我们研究了指代图像分割的问题。给定一张输入图像和一个自然语言表达，目标是在图像中分割出由该语言表达所指代的对象。现有工作在这一领域中通常将语言表达和输入图像分别进行表示，未能充分捕捉这两种模态之间的长距离关联。本文提出了一种跨模态自注意力（Cross-Modal Self-Attention, CMSA）模块，能够有效捕捉语言特征和视觉特征之间的长距离依赖关系。我们的模型可以自适应地关注指代表达中的关键词汇以及输入图像中的重要区域。此外，我们还提出了一种门控多级融合模块，用于选择性地整合不同层级的自注意力跨模态特征。该模块控制不同层级特征的信息流动。我们在四个评估数据集上验证了所提出的方法，结果表明我们的方法始终优于现有的最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

多模态表征

计算机视觉

Linwei Ye; Mrigank Rochan; Zhi Liu; Yang Wang

摘要

我们研究了指代图像分割的问题。给定一张输入图像和一个自然语言表达，目标是在图像中分割出由该语言表达所指代的对象。现有工作在这一领域中通常将语言表达和输入图像分别进行表示，未能充分捕捉这两种模态之间的长距离关联。本文提出了一种跨模态自注意力（Cross-Modal Self-Attention, CMSA）模块，能够有效捕捉语言特征和视觉特征之间的长距离依赖关系。我们的模型可以自适应地关注指代表达中的关键词汇以及输入图像中的重要区域。此外，我们还提出了一种门控多级融合模块，用于选择性地整合不同层级的自注意力跨模态特征。该模块控制不同层级特征的信息流动。我们在四个评估数据集上验证了所提出的方法，结果表明我们的方法始终优于现有的最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供