HyperAIHyperAI

Command Palette

Search for a command to run...

探索图像问答中的模型与数据

Mengye Ren; Ryan Kiros; Richard Zemel

摘要

本研究旨在通过引入新的模型和数据集来解决基于图像的问答(QA)问题。在我们的工作中,提出了一种利用神经网络和视觉语义嵌入的方法,无需经过诸如目标检测和图像分割等中间阶段,即可预测关于图像的简单问题的答案。我们的模型在现有的图像问答数据集上的表现比唯一已发表的结果高出1.8倍。我们还介绍了一种问题生成算法,该算法可以将广泛可用的图像描述转换为问答形式。利用这一算法,我们生成了一个数量级更大的数据集,且答案分布更加均匀。本文还展示了在新数据集上的一系列基线结果。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供