6 个月前

摘要

我们提出了一项面向文档图像视觉问答（Visual Question Answering, VQA）的新数据集，名为DocVQA。该数据集包含超过12,000张文档图像，涵盖50,000个问题。本文对DocVQA数据集进行了详尽分析，并与现有的VQA及阅读理解类数据集进行了对比。我们采用现有的VQA与阅读理解模型，报告了若干基线实验结果。尽管现有模型在部分问题类型上表现尚可，但与人类水平（准确率94.36%）相比仍存在显著差距，尤其是在需要理解文档结构的问答任务上，模型表现尤为不足。目前，该数据集、相关代码及排行榜均已开放，可通过docvqa.org获取。

源 PDF