VizWiz 盲人视觉问答数据集

本站暂不支持该数据集下载,如需下载请访问上述「发布地址」进行下载(如可用)

VizWiz-VQA (Visual Question Answering) 是一个盲人视觉问答的图像数据集。盲人用户使用 VizWiz 软件拍摄一张照片,并记录一个关于该照片的口头问题和该问题的 10 个众包答案。该数据集用于解决以下两个问题,一是预测一个视觉问题的答案,二是判断一个视觉问题能否被回答。该数据集旨在研究更多通用算法,帮助盲人解决生活障碍。

该数据集包括(2020 最新版)

  • 20,523 对训练图像/问题
  • 205,230 对训练答案/答案置信度
  • 4319 对验证图像/问题
  • 43,190 对验证答案/答案置信度
  • 8,000 对测试图片/问题