日期

2 年前

大小

428.1 MB

数据集组织

标签

该数据集为上海交通大学发布的多模态基准测试 MULTI ，旨在评测多模态大模型在理解复杂的表格和图像、以及进行长文本推理的能力。该测试提供多模态输入，并要求回答是精确的或开放式的，反映了现实生活中的考试风格。 MULTI 包含逾 18,000 个问题，涵盖从公式推导到图像分析及跨模态推理的多样化任务。研究团队还创建了 MULTI-Elite，这是一个精心挑选的包含 500 个问题的难题子集，以及 MULTI-Extend，包含超过 4,500 个外部知识上下文的数据集。 MULTI 不仅作为一个稳健的评测平台，也为专家级 AI 的发展指明了方向。

Citation

@article{zhu2025multi, title={{MULTI}: Multimodal Understanding Leaderboard with Text and Images}, author={Zichen Zhu and Yang Xu and Lu Chen and Jingkai Yang and Yichuan Ma and Yiming Sun and Hailin Wen and Jiaqi Liu and Jinyu Cai and Yingzi Ma and Situo Zhang and Zihan Zhao and Liangtai Sun and Kai Yu}, journal = “SCIENCE CHINA Information Sciences”, year = “2025”, volume = “68”, number = “10”, pages = “200107.1–200107.26”, doi = “https://doi.org/10.1007/s11432-024-4602-x” }

MULTI-Benchmark.torrent

做种 2正在下载 0已完成 291总下载量 328

MULTI-Benchmark/
- README.md
  1.49 KB
- README.txt
  2.98 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

2 年前

大小

428.1 MB

数据集组织

标签

Citation

MULTI-Benchmark.torrent

做种 2正在下载 0已完成 291总下载量 328

MULTI-Benchmark/
- README.md
  1.49 KB
- README.txt
  2.98 KB

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

MULTI-Benchmark：带有文本和图像的多模态理解排行榜

Citation

用 AI 构建 AI

HyperAI Newsletters

Command Palette

MULTI-Benchmark：带有文本和图像的多模态理解排行榜

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

Movie Feelings 电影情感特征数据集

Noisy Medical Document 含噪医疗文档图像数据集

OpenSAL360 全景视频显著性数据集

EAVSD 电商广告视频分镜数据集

DeepCrack 基础设施裂缝检测数据集

chi-bench 医疗智能体基准评测数据集

Rice Leaf Diseases 水稻叶片病害检测数据集

MemLens 多模态长上下文基准数据集

Global Earthquake-M4.5 全球 4.5 级以上地震数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Eye Disease Classification Fundus 眼底疾病分类数据集

Breast Cancer：Multi-Modal Fusion 乳腺癌多模态融合数据集

RSRCC 遥感区域变化理解基准数据集

Transfermarkt Football 足球转会数据集

BRIGHT 灾害建筑评估数据集

World Model Bench 世界模型基准数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

MULTI-Benchmark：带有文本和图像的多模态理解排行榜

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

Movie Feelings 电影情感特征数据集

Noisy Medical Document 含噪医疗文档图像数据集

OpenSAL360 全景视频显著性数据集

EAVSD 电商广告视频分镜数据集

DeepCrack 基础设施裂缝检测数据集

chi-bench 医疗智能体基准评测数据集

Rice Leaf Diseases 水稻叶片病害检测数据集

MemLens 多模态长上下文基准数据集

Global Earthquake-M4.5 全球 4.5 级以上地震数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Eye Disease Classification Fundus 眼底疾病分类数据集

Breast Cancer：Multi-Modal Fusion 乳腺癌多模态融合数据集

RSRCC 遥感区域变化理解基准数据集

Transfermarkt Football 足球转会数据集

BRIGHT 灾害建筑评估数据集

World Model Bench 世界模型基准数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

Movie Feelings 电影情感特征数据集

Noisy Medical Document 含噪医疗文档图像数据集

OpenSAL360 全景视频显著性数据集

EAVSD 电商广告视频分镜数据集

DeepCrack 基础设施裂缝检测数据集

chi-bench 医疗智能体基准评测数据集

Rice Leaf Diseases 水稻叶片病害检测数据集

MemLens 多模态长上下文基准数据集

Global Earthquake-M4.5 全球 4.5 级以上地震数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Eye Disease Classification Fundus 眼底疾病分类数据集

Breast Cancer：Multi-Modal Fusion 乳腺癌多模态融合数据集

RSRCC 遥感区域变化理解基准数据集

Transfermarkt Football 足球转会数据集

BRIGHT 灾害建筑评估数据集

World Model Bench 世界模型基准数据集

相关数据集

MAKIEVAL 多语言文化知识评估数据集