音频感知的大语言模型作为口语风格的评判者
Cheng-Han Chiang, Xiaofei Wang, Chung-Ching Lin, Kevin Lin, Linjie Li, Radu Kopetz, Yao Qian, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
发布日期: 6/9/2025

摘要
音频感知的大规模语言模型(ALLMs)能够理解音频输入中的文本和非文本信息。在本文中,我们探讨了使用ALLMs作为自动评判者来评估演讲的说话风格。我们使用ALLM评判者对四个语音生成模型(SLMs)在两项任务上的表现进行评价:语音风格指令跟随和角色扮演。我们考虑的说话风格包括情感、音量、语速、词语重音、音调控制和非言语元素。为了完成这两项任务,我们使用了四种语音语言模型(SLMs),并由人类和ALLMs对这些模型的响应进行评判。我们将两种ALLM评判者——GPT-4o-audio和Gemini-2.5-pro——与人类评判结果进行了比较,结果显示Gemini与人类评判者的共识程度可与人类评判者之间的共识程度相媲美。这些令人鼓舞的结果表明,ALLMs可以作为评判者来评估SLMs的表现。我们的研究还揭示,当前的SLMs,即使如GPT-4o-audio这样的模型,在控制说话风格和生成自然对话方面仍有改进的空间。