6 个月前

摘要

当前关于语音语言理解（Spoken Language Understanding, SLU）的研究主要局限于一种简单场景：基于纯文本的SLU，即以用户语音语句为输入，生成对应的语义框架（如意图和槽位）。然而，在现实复杂场景中，当语句存在语义歧义时，这种仅依赖文本的SLU模型往往难以有效工作。为此，本文首次提出一项新的重要任务——基于用户画像的语音语言理解（Profile-based Spoken Language Understanding, ProSLU），该任务要求模型不仅依赖于原始文本，还需结合辅助的用户画像信息来准确预测意图与槽位。为支持该任务的研究，我们构建了一个大规模人工标注的中文数据集，包含超过5000条语音语句及其对应的辅助信息，涵盖知识图谱（Knowledge Graph, KG）、用户画像（User Profile, UP）以及上下文感知信息（Context Awareness, CA）。此外，我们评估了多种先进的基线模型，并提出一种多层次知识适配器（multi-level knowledge adapter），以高效融合外部画像信息。实验结果表明，当语句存在语义歧义时，所有现有的基于文本的SLU模型均表现不佳；而本文提出的框架能够有效融合辅助信息，在句子级意图识别与词粒度槽位填充任务中显著提升性能。最后，本文总结了该领域面临的关键挑战，并为未来研究提供了新的方向与思路，旨在推动该方向的深入发展。

源 PDF