7 个月前

多模态表征

计算机视觉

Ilija Ilievski Shuicheng Yan Jiashi Feng

摘要

视觉问答（VQA）问题正逐渐引起多个研究领域的广泛关注。解决VQA问题需要结合计算机视觉技术来理解所展示图像或视频的视觉内容，以及自然语言处理技术来理解问题的语义并生成答案。在视觉内容建模方面，现有的大多数VQA方法采用从图像或视频中提取全局特征的策略，这不可避免地导致无法捕捉到诸如多个对象的空间配置等细粒度信息。从自动生成的区域中提取特征——正如一些基于区域的图像识别方法所做的那样——本质上并不能解决这一问题，反而可能引入大量与问题无关的特征。在这项工作中，我们提出了一种新颖的聚焦动态注意力（Focused Dynamic Attention, FDA）模型，以提供与所提问题更好地对齐的图像内容表示。FDA模型通过现成的目标检测器识别关键区域，并利用LSTM单元融合这些区域的信息和全局特征。随后，这种由问题驱动的内容表示与问题表示相结合，并输入推理单元以生成答案。在大规模基准数据集VQA上的广泛评估清楚地表明了FDA模型相较于已建立基线方法的优越性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

多模态表征

计算机视觉

Ilija Ilievski Shuicheng Yan Jiashi Feng

摘要

视觉问答（VQA）问题正逐渐引起多个研究领域的广泛关注。解决VQA问题需要结合计算机视觉技术来理解所展示图像或视频的视觉内容，以及自然语言处理技术来理解问题的语义并生成答案。在视觉内容建模方面，现有的大多数VQA方法采用从图像或视频中提取全局特征的策略，这不可避免地导致无法捕捉到诸如多个对象的空间配置等细粒度信息。从自动生成的区域中提取特征——正如一些基于区域的图像识别方法所做的那样——本质上并不能解决这一问题，反而可能引入大量与问题无关的特征。在这项工作中，我们提出了一种新颖的聚焦动态注意力（Focused Dynamic Attention, FDA）模型，以提供与所提问题更好地对齐的图像内容表示。FDA模型通过现成的目标检测器识别关键区域，并利用LSTM单元融合这些区域的信息和全局特征。随后，这种由问题驱动的内容表示与问题表示相结合，并输入推理单元以生成答案。在大规模基准数据集VQA上的广泛评估清楚地表明了FDA模型相较于已建立基线方法的优越性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供