7 个月前

计算机视觉

计算机视觉

Dalu Guo Chang Xu Dacheng Tao

摘要

本文从图的角度重新审视了视觉问答任务中的双线性注意力网络。传统的双线性注意力网络通过构建双线性注意力图来提取问题中词语和图像中对象的联合表示，但在复杂推理过程中未能充分探索词语之间的关系。相比之下，我们开发了双线性图网络来建模词语和对象的联合嵌入上下文。研究了两种类型的图，即图像图和问题图。图像图将检测到的对象特征传递给相关的查询词语，使得输出节点同时具备语义信息和事实信息。问题图则在这些来自图像图的输出节点之间交换信息，放大对象之间隐含但重要的关系。这两种类型的图相互协作，从而使我们的模型能够建模对象之间的关系和依赖，实现多步推理。在VQA v2.0验证数据集上的实验结果表明，我们的方法能够处理复杂的问题。在测试标准集上，我们最佳的单一模型达到了最先进的性能，将整体准确率提升至72.41%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

计算机视觉

Dalu Guo Chang Xu Dacheng Tao

摘要

本文从图的角度重新审视了视觉问答任务中的双线性注意力网络。传统的双线性注意力网络通过构建双线性注意力图来提取问题中词语和图像中对象的联合表示，但在复杂推理过程中未能充分探索词语之间的关系。相比之下，我们开发了双线性图网络来建模词语和对象的联合嵌入上下文。研究了两种类型的图，即图像图和问题图。图像图将检测到的对象特征传递给相关的查询词语，使得输出节点同时具备语义信息和事实信息。问题图则在这些来自图像图的输出节点之间交换信息，放大对象之间隐含但重要的关系。这两种类型的图相互协作，从而使我们的模型能够建模对象之间的关系和依赖，实现多步推理。在VQA v2.0验证数据集上的实验结果表明，我们的方法能够处理复杂的问题。在测试标准集上，我们最佳的单一模型达到了最先进的性能，将整体准确率提升至72.41%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供