6 个月前

摘要

在语音理解（Spoken Language Understanding, SLU）任务中，其目标是从语音指令中提取关键信息，例如用户意图（即希望系统执行的操作）以及特定实体（如地点、数字等）。本文提出了一种简单的方法，将意图和实体嵌入有限状态转换器（Finite State Transducers）中，并结合预训练的通用语音识别模型（Speech-to-Text model），实现无需任何额外训练即可构建SLU系统。该方法构建模型速度极快，仅需数秒时间，且完全与语言无关。通过在多个基准数据集上的对比实验表明，该方法在性能上可超越多种其他更为资源密集型的SLU方法。

源 PDF