摘要
截至目前,多意图语音语言理解(Multi-intent Spoken Language Understanding, SLU)因其能够识别并提取单个话语中表达的多个意图,并为相应序列中的槽位(slot)打上标签,已成为自然语言处理(Natural Language Processing, NLP)领域的研究热点。以往的研究主要聚焦于基于词元(token-level)的意图-槽位交互建模,以实现联合意图识别与槽位填充任务。然而,这种建模方式在联合训练过程中未能充分挖掘异质性(anisotropic)意图引导信息,导致性能受限。在本工作中,我们提出了一种新颖的架构,将多意图SLU建模为多视角意图-槽位交互问题。该架构通过在话语级、片段级(chunk-level)和词元级三个层次上有效建模意图与槽位之间的关系,突破了统一式多意图SLU中的核心瓶颈。我们进一步构建了一个神经网络框架——Uni-MIS(Unified Multi-intent SLU),将统一的多意图SLU建模为三视图意图-槽位交互融合机制,以在经过特殊编码后更充分地捕捉交互信息。具体而言,采用片段级意图检测解码器以充分捕获多意图特性,同时引入自适应意图-槽位图网络,以捕捉细粒度的意图信息,从而有效指导最终的槽位填充。我们在两个广泛使用的多意图SLU基准数据集上进行了大量实验,结果表明,所提出的模型在所有现有强基线方法上均取得超越表现,显著推动了统一式多意图SLU的最先进性能。此外,我们构建的ChatGPT基准测试进一步表明,多意图SLU领域仍蕴含着巨大的研究潜力与应用价值。