Command Palette

Search for a command to run...

VRC-Bench 视觉推理基准测试数据集

日期

9 个月前

大小

465.89 MB

机构

Australian National University
Linköping University
Mohamed bin Zayed University of AI
University of Central Florida

论文链接

arxiv.org

VRC-Bench 是首个专为多模态逐步推理任务设计的基准测试,旨在全面评估模型在复杂推理场景中的表现,由穆罕默德·本·扎耶德人工智能大学、中佛罗里达大学、林雪平大学和澳大利亚国立大学于 2025 年发布,相关论文成果为「LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs」。与传统基准测试仅关注最终结果的准确性不同,VRC-Bench 专注于评估每个推理步骤的质量,从而提供更细致的模型能力评估。

数据集涵盖了 8 个不同领域的挑战,包括视觉推理、数学与逻辑推理、科学推理、文化和社会理解等,这些任务涉及复杂的视觉感知、科学推理、医学影像解读等多种场景,含超过 4k 个手动验证的推理步骤,能够全面评估模型在多步推理中的准确性和逻辑连贯性。

数据示例

VRC-Bench.torrent
做种 1正在下载 0已完成 83总下载次数 159
  • VRC-Bench/
    • README.md
      1.79 KB
    • README.txt
      3.58 KB
      • data/
        • VRC-Bench.zip
          465.89 MB

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供