VRC-Bench 视觉推理基准测试数据集
VRC-Bench 是首个专为多模态逐步推理任务设计的基准测试,旨在全面评估模型在复杂推理场景中的表现,由穆罕默德·本·扎耶德人工智能大学、中佛罗里达大学、林雪平大学和澳大利亚国立大学于 2025 年发布,相关论文成果为「LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs」。与传统基准测试仅关注最终结果的准确性不同,VRC-Bench 专注于评估每个推理步骤的质量,从而提供更细致的模型能力评估。
数据集涵盖了 8 个不同领域的挑战,包括视觉推理、数学与逻辑推理、科学推理、文化和社会理解等,这些任务涉及复杂的视觉感知、科学推理、医学影像解读等多种场景,含超过 4k 个手动验证的推理步骤,能够全面评估模型在多步推理中的准确性和逻辑连贯性。

VRC-Bench.torrent
做种 1正在下载 1已完成 19总下载次数 54