
摘要
本研究旨在通过引入新的模型和数据集来解决基于图像的问答(QA)问题。在我们的工作中,提出了一种利用神经网络和视觉语义嵌入的方法,无需经过诸如目标检测和图像分割等中间阶段,即可预测关于图像的简单问题的答案。我们的模型在现有的图像问答数据集上的表现比唯一已发表的结果高出1.8倍。我们还介绍了一种问题生成算法,该算法可以将广泛可用的图像描述转换为问答形式。利用这一算法,我们生成了一个数量级更大的数据集,且答案分布更加均匀。本文还展示了在新数据集上的一系列基线结果。
本研究旨在通过引入新的模型和数据集来解决基于图像的问答(QA)问题。在我们的工作中,提出了一种利用神经网络和视觉语义嵌入的方法,无需经过诸如目标检测和图像分割等中间阶段,即可预测关于图像的简单问题的答案。我们的模型在现有的图像问答数据集上的表现比唯一已发表的结果高出1.8倍。我们还介绍了一种问题生成算法,该算法可以将广泛可用的图像描述转换为问答形式。利用这一算法,我们生成了一个数量级更大的数据集,且答案分布更加均匀。本文还展示了在新数据集上的一系列基线结果。