Command Palette

Search for a command to run...

UNO-Bench 全模态评测基准数据集

日期

6 天前

机构

论文链接

2510.18915

许可协议

MIT

UNO-Bench 是由美团 LongCat 团队于 2025 年发布的首个统一的全模态评测基准,相关论文成果为「UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models」,旨在高效评估单模态与全模态理解能力。

该数据集包含 1250 条具备 98% 跨模态可解性的全模态样本,以及 2480 条单模态样本,覆盖 44 种任务类型与 5 种模态组合。数据集同时配套一个通用评分模型,可支持 6 种题型的自动化评估,为多模态任务提供统一的评测标准。全模态样本由人工精心构建,贴近真实应用,尤其适用于中文语境;单模态样本则用于补充基础认知与能力维度,使整体评测更加全面。

数据结构:

数据以 Parquet 格式存储,每条样本包含结构化字段:

  • qid(样本编号)、 subset_name(子集名称);
  • question(文本问题)与 answer(标准答案);
  • images / audios / videos(多模态内容,以字典形式存储文件路径,不存在时为 null);
  • task(44 类任务标签)、 ability(能力类型)、 source(数据来源)、 score_type(评分方式)。
数据集示例

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UNO-Bench 全模态评测基准数据集 | 数据集 | HyperAI超神经