Command Palette

Search for a command to run...

25 天前

WildSpeech-Bench:在真实场景中对端到端SpeechLLM进行基准测试

Linhao Zhang Jian Zhang Bokai Lei Chuhan Wu Aiwei Liu Wei Jia Xiao Zhou

WildSpeech-Bench:在真实场景中对端到端SpeechLLM进行基准测试

摘要

近期,诸如GPT-4o等多模态大语言模型(LLMs)已展现出强大的直接语音交互能力。然而,由于缺乏针对端到端语音大模型评估的专用且全面的基准测试体系,语音大模型在真实应用场景中的用户体验优化仍面临阻碍。现有评估方法多沿用基于文本的评测基准,忽视了语音特有的性质与挑战,如语调、同音词、口吃现象以及用户在语音交互中存在差异化的预期。为此,我们提出了首个系统性评估端到端语音大模型在实际语音对话中表现的综合性基准。我们系统地收集了与口语场景密切相关的现实对话数据,引入了多样化的说话人属性与声学环境,并通过增强语音特有现象来丰富数据集。此外,我们设计了一种查询感知的评估方法,利用定制化的评估清单与提示(prompt),提升自动评估的准确性。通过对多种主流语音模型进行全方位测试与深入分析,我们揭示了不同模型在各类语音场景下的性能存在显著差异。查询感知评估方法进一步实现了在多种语音特异性场景下的细粒度评估。本基准为语音模型的开发与评估提供了宝贵洞见。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
WildSpeech-Bench:在真实场景中对端到端SpeechLLM进行基准测试 | 论文 | HyperAI超神经