Command Palette
Search for a command to run...
UNO-Bench 全模态评测基准数据集
UNO-Bench 是由美团 LongCat 团队于 2025 年发布的首个统一的全模态评测基准,相关论文成果为「UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models」,旨在高效评估单模态与全模态理解能力。
该数据集包含 1250 条具备 98% 跨模态可解性的全模态样本,以及 2480 条单模态样本,覆盖 44 种任务类型与 5 种模态组合。数据集同时配套一个通用评分模型,可支持 6 种题型的自动化评估,为多模态任务提供统一的评测标准。全模态样本由人工精心构建,贴近真实应用,尤其适用于中文语境;单模态样本则用于补充基础认知与能力维度,使整体评测更加全面。
数据结构:
数据以 Parquet 格式存储,每条样本包含结构化字段:
- qid(样本编号)、 subset_name(子集名称);
- question(文本问题)与 answer(标准答案);
- images / audios / videos(多模态内容,以字典形式存储文件路径,不存在时为 null);
- task(44 类任务标签)、 ability(能力类型)、 source(数据来源)、 score_type(评分方式)。
