HyperAI超神经

VRC-Bench 视觉推理基准测试数据集

日期

3 个月前

大小

465.89 MB

机构

Australian National University
University of Central Florida

发布地址

huggingface.co

VRC-Bench 是首个专为多模态逐步推理任务设计的基准测试,旨在全面评估模型在复杂推理场景中的表现,由穆罕默德·本·扎耶德人工智能大学、中佛罗里达大学、林雪平大学和澳大利亚国立大学于 2025 年发布,相关论文成果为「LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs」。与传统基准测试仅关注最终结果的准确性不同,VRC-Bench 专注于评估每个推理步骤的质量,从而提供更细致的模型能力评估。

数据集涵盖了 8 个不同领域的挑战,包括视觉推理、数学与逻辑推理、科学推理、文化和社会理解等,这些任务涉及复杂的视觉感知、科学推理、医学影像解读等多种场景,含超过 4k 个手动验证的推理步骤,能够全面评估模型在多步推理中的准确性和逻辑连贯性。

数据示例

VRC-Bench.torrent
做种 1正在下载 1已完成 19总下载次数 54
  • VRC-Bench/
    • README.md
      1.79 KB
    • README.txt
      3.58 KB
      • data/
        • VRC-Bench.zip
          465.89 MB