日期
大小
发布地址
huggingface.co
许可协议
CC BY-SA 4.0
标签
VisualOverload 是一个场景图像理解评测数据集,旨在考察模型在不依赖外部知识的情况下,对复杂场景中细节的视觉理解与推理能力。
该数据集包含 2,720 条问答对,由公共领域的高分辨率画作构成,这些画作往往包含多个人物、动作、子情节以及复杂的背景。问题均为人工设计,用以全面检验模型对场景的理解。该数据集适用于视觉问答研究、细节级图像理解与推理、以及多人物/多元素复杂场景的评测。