11 天前

文本已不再足够!面向基于个人资料的语音理解基准测试

Xiao Xu, Libo Qin, Kaiji Chen, Guoxing Wu, Linlin Li, Wanxiang Che
文本已不再足够!面向基于个人资料的语音理解基准测试
摘要

当前关于语音语言理解(Spoken Language Understanding, SLU)的研究主要局限于一种简单场景:基于纯文本的SLU,即以用户语音语句为输入,生成对应的语义框架(如意图和槽位)。然而,在现实复杂场景中,当语句存在语义歧义时,这种仅依赖文本的SLU模型往往难以有效工作。为此,本文首次提出一项新的重要任务——基于用户画像的语音语言理解(Profile-based Spoken Language Understanding, ProSLU),该任务要求模型不仅依赖于原始文本,还需结合辅助的用户画像信息来准确预测意图与槽位。为支持该任务的研究,我们构建了一个大规模人工标注的中文数据集,包含超过5000条语音语句及其对应的辅助信息,涵盖知识图谱(Knowledge Graph, KG)、用户画像(User Profile, UP)以及上下文感知信息(Context Awareness, CA)。此外,我们评估了多种先进的基线模型,并提出一种多层次知识适配器(multi-level knowledge adapter),以高效融合外部画像信息。实验结果表明,当语句存在语义歧义时,所有现有的基于文本的SLU模型均表现不佳;而本文提出的框架能够有效融合辅助信息,在句子级意图识别与词粒度槽位填充任务中显著提升性能。最后,本文总结了该领域面临的关键挑战,并为未来研究提供了新的方向与思路,旨在推动该方向的深入发展。

文本已不再足够!面向基于个人资料的语音理解基准测试 | 最新论文 | HyperAI超神经