17 天前

UniverSLU:面向多样化任务的通用语音语言理解,支持自然语言指令

Siddhant Arora, Hayato Futami, Jee-weon Jung, Yifan Peng, Roshan Sharma, Yosuke Kashiwagi, Emiru Tsunoo, Karen Livescu, Shinji Watanabe
UniverSLU:面向多样化任务的通用语音语言理解,支持自然语言指令
摘要

近期研究利用具备多任务能力的大型语言模型,通过自然语言提示(natural language prompts)引导模型行为,其性能已超越专用任务模型。受此启发,我们提出一个问题:能否构建一个单一模型,联合完成多种语音语言理解(Spoken Language Understanding, SLU)任务?为此,我们首先将预训练的自动语音识别(Automatic Speech Recognition, ASR)模型通过单标记任务标识符(single-token task specifiers)适配至多个附加任务。随后,我们引入指令微调(instruction tuning)策略,即通过自然语言描述任务内容,并附上标签选项列表,对模型进行微调,从而进一步提升其性能。该方法在推理阶段能够泛化至已知任务的新描述形式,显著增强了模型的用户友好性。我们所提出的统一多任务学习模型——“UniverSLU”,在涵盖17个数据集和9种语言的12类语音分类与序列生成任务中展现出卓越的性能。在大多数任务上,UniverSLU取得了具有竞争力的结果,且在许多情况下甚至优于专用任务模型。此外,我们还评估了模型的零样本(zero-shot)泛化能力,结果表明,该模型能够有效迁移至未见过的数据集和语言,适用于已知任务类型的新场景。