日期

1 年前

大小

465.89 MB

数据集组织

论文 URL

arxiv.org

标签

多模态

VRC-Bench 是首个专为多模态逐步推理任务设计的基准测试，旨在全面评估模型在复杂推理场景中的表现，由穆罕默德·本·扎耶德人工智能大学、中佛罗里达大学、林雪平大学和澳大利亚国立大学于 2025 年发布，相关论文成果为「LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs」。与传统基准测试仅关注最终结果的准确性不同，VRC-Bench 专注于评估每个推理步骤的质量，从而提供更细致的模型能力评估。数据集涵盖了 8 个不同领域的挑战，包括视觉推理、数学与逻辑推理、科学推理、文化和社会理解等，这些任务涉及复杂的视觉感知、科学推理、医学影像解读等多种场景，含超过 4k 个手动验证的推理步骤，能够全面评估模型在多步推理中的准确性和逻辑连贯性。

VRC-Bench.torrent

做种 1正在下载 0已完成 99总下载量 212

VRC-Bench/
- README.md
  1.79 KB
- README.txt
  3.58 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

1 年前

大小

465.89 MB

数据集组织

论文 URL

arxiv.org

标签

多模态

VRC-Bench.torrent

做种 1正在下载 0已完成 99总下载量 212

VRC-Bench/
- README.md
  1.79 KB
- README.txt
  3.58 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

Groundsource 全球洪水事件数据集

3 个月前

CHIMERA 通用推理合成数据集

3 个月前

CL-bench 上下文学习评估基准数据集

4 个月前

RoVid-X 机器人视频生成数据集

2 个月前

Nemotron-Math-v2 数学推理数据集

5 个月前

GroundingME 复杂场景理解评测数据集

5 个月前

MCIF 多模态跨语言指令跟随数据集

5 个月前

TxT360-3efforts 多任务推理数据集

5 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

VRC-Bench 视觉推理基准测试数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

VRC-Bench 视觉推理基准测试数据集

相关数据集

Groundsource 全球洪水事件数据集

CHIMERA 通用推理合成数据集

CL-bench 上下文学习评估基准数据集

RoVid-X 机器人视频生成数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

VRC-Bench 视觉推理基准测试数据集

相关数据集

Groundsource 全球洪水事件数据集

CHIMERA 通用推理合成数据集

CL-bench 上下文学习评估基准数据集

RoVid-X 机器人视频生成数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

Groundsource 全球洪水事件数据集

CHIMERA 通用推理合成数据集

CL-bench 上下文学习评估基准数据集

RoVid-X 机器人视频生成数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

相关数据集

Groundsource 全球洪水事件数据集

CHIMERA 通用推理合成数据集

CL-bench 上下文学习评估基准数据集

RoVid-X 机器人视频生成数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集