COREVQA 视觉问答基准数据集
COREVQA 是由 Algoverse 人工智能研究中心于 2025 年发布的一个视觉问答基准数据集,相关论文成果为 「COREVQA: A Crowd Observation and Reasoning Entailment Visual Question Answering Benchmark」,旨在评估视觉语言模型(VLM)在 人群场景中的推理蕴含能力。
该数据集包含 5,608 对图像与真/假语句对,图像源自 CrowdHuman 数据集。数据以真实拥挤场景为主,强调遮挡、视角变化与背景干扰等难点,旨在推动 VLM 在复杂社会场景下的细粒度感知与推理能力。
数据包含:
- 场景图像(image_id)
- 自然语言陈述(question)
- 二分类标签(answer:TRUE / FALSE)
COREVQA.torrent
做种 1正在下载 0已完成 8总下载次数 35