VisualOverload 场景图像理解数据集

日期

15 天前

大小

601.3 MB

发布地址

huggingface.co

许可协议

CC BY-SA 4.0

VisualOverload 是一个场景图像理解评测数据集,旨在考察模型在不依赖外部知识的情况下,对复杂场景中细节的视觉理解与推理能力。

该数据集包含 2,720 条问答对,由公共领域的高分辨率画作构成,这些画作往往包含多个人物、动作、子情节以及复杂的背景。问题均为人工设计,用以全面检验模型对场景的理解。该数据集适用于视觉问答研究、细节级图像理解与推理、以及多人物/多元素复杂场景的评测。

数据集示例
VisualOverload.torrent
做种 1正在下载 0已完成 1总下载次数 11
  • VisualOverload/
    • README.md
      1.31 KB
    • README.txt
      2.62 KB
      • data/
        • VisualOverload.zip
          601.3 MB