7 个月前

计算机视觉

Pan Lu† Hongsheng Li‡∗ Wei Zhang‡ Jianyong Wang† Xiaogang Wang‡∗

摘要

近期，视觉问答（VQA）任务在人工智能领域受到了越来越多的关注。现有的VQA方法主要采用视觉注意力机制，将输入的问题与相应的图像区域关联起来，以实现有效的问答。研究中主要探讨了自由形式区域基于的和检测框基于的两种视觉注意力机制，前者关注自由形式的图像区域，而后者则关注预定义的检测框区域。我们认为，这两种注意力机制能够提供互补的信息，应该有效地整合在一起以更好地解决VQA问题。在本文中，我们提出了一种新的深度神经网络模型用于VQA，该模型集成了上述两种注意力机制。所提出的框架通过多模态乘法特征嵌入方案有效融合了自由形式图像区域、检测框和问题表示的特征，从而共同关注与问题相关的自由形式图像区域和检测框，实现更加准确的问答。该方法在两个公开数据集COCO-QA和VQA上进行了广泛评估，并且表现优于当前最先进的方法。源代码可在https://github.com/lupantech/dual-mfa-vqa 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

Pan Lu† Hongsheng Li‡∗ Wei Zhang‡ Jianyong Wang† Xiaogang Wang‡∗

摘要

近期，视觉问答（VQA）任务在人工智能领域受到了越来越多的关注。现有的VQA方法主要采用视觉注意力机制，将输入的问题与相应的图像区域关联起来，以实现有效的问答。研究中主要探讨了自由形式区域基于的和检测框基于的两种视觉注意力机制，前者关注自由形式的图像区域，而后者则关注预定义的检测框区域。我们认为，这两种注意力机制能够提供互补的信息，应该有效地整合在一起以更好地解决VQA问题。在本文中，我们提出了一种新的深度神经网络模型用于VQA，该模型集成了上述两种注意力机制。所提出的框架通过多模态乘法特征嵌入方案有效融合了自由形式图像区域、检测框和问题表示的特征，从而共同关注与问题相关的自由形式图像区域和检测框，实现更加准确的问答。该方法在两个公开数据集COCO-QA和VQA上进行了广泛评估，并且表现优于当前最先进的方法。源代码可在https://github.com/lupantech/dual-mfa-vqa 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供