Command Palette
Search for a command to run...
Linhao Zhang Jian Zhang Bokai Lei Chuhan Wu Aiwei Liu Wei Jia Xiao Zhou

摘要
近期,诸如GPT-4o等多模态大语言模型(LLMs)已展现出强大的直接语音交互能力。然而,由于缺乏针对端到端语音大模型评估的专用且全面的基准测试体系,语音大模型在真实应用场景中的用户体验优化仍面临阻碍。现有评估方法多沿用基于文本的评测基准,忽视了语音特有的性质与挑战,如语调、同音词、口吃现象以及用户在语音交互中存在差异化的预期。为此,我们提出了首个系统性评估端到端语音大模型在实际语音对话中表现的综合性基准。我们系统地收集了与口语场景密切相关的现实对话数据,引入了多样化的说话人属性与声学环境,并通过增强语音特有现象来丰富数据集。此外,我们设计了一种查询感知的评估方法,利用定制化的评估清单与提示(prompt),提升自动评估的准确性。通过对多种主流语音模型进行全方位测试与深入分析,我们揭示了不同模型在各类语音场景下的性能存在显著差异。查询感知评估方法进一步实现了在多种语音特异性场景下的细粒度评估。本基准为语音模型的开发与评估提供了宝贵洞见。