Command Palette
Search for a command to run...
Chen Chen ZeYang Hu Fengjiao Chen Liya Ma Jiaxing Liu Xiaoyu Li Ziwen Wang Xuezhi Cao Xunliang Cai

摘要
多模态大语言模型正从单模态理解向融合视觉、听觉与语言模态的统一范式演进,这类模型统称为“全模态模型”(omni models)。然而,单模态与全模态之间的作用关系尚不明确,亟需通过全面评估来推动全模态模型智能水平的持续进化。为此,本文提出一个新颖、高质量且统一的全模态模型评测基准——UNO-Bench。该基准旨在基于统一的能力分类体系,有效评估模型在单模态与全模态下的综合能力,涵盖44种任务类型及5种模态组合。UNO-Bench包含1250个由人工精心构建的全模态样本,跨模态可解率达98%;同时包含2480个经过增强处理的单模态样本。人工构建的数据集高度贴近真实应用场景,尤其适用于中文语境;而自动压缩生成的数据集则在保持18个公开基准上98%一致性的同时,推理速度提升达90%。除传统的多选题外,我们还提出一种创新的多步骤开放式问答格式,用于评估复杂推理能力。此外,引入通用评分模型,支持6类题型的自动化评估,准确率高达95%。实验结果表明,全模态与单模态性能之间存在组合规律(Compositional Law),全模态能力在弱模型中表现为瓶颈效应,而在强模型中则呈现出显著的协同促进作用。