
摘要
语音语言理解(Spoken Language Understanding, SLU)能够直接从音频数据中推断语义含义,因而有望在终端用户应用中减少错误传播和误解。然而,目前公开可用的SLU资源仍十分有限。本文发布了一个名为SLURP的新SLU工具包,包含以下内容:(1)一个全新的英文挑战性数据集,覆盖18个领域,其规模显著大于现有数据集,且在语言多样性方面也更为丰富;(2)基于前沿自然语言理解(NLU)与自动语音识别(ASR)系统的具有竞争力的基线模型;(3)一种新型透明的实体标注评估指标,可支持细致的错误分析,从而识别潜在的改进方向。SLURP工具包已开源,访问地址为:https://github.com/pswietojanski/slurp。