17 天前

我们是否仍然需要自动语音识别（Automatic Speech Recognition）来实现口语理解？

Lasse Borgholt, Jakob Drachmann Havtorn, Mostafa Abdou, Joakim Edin, Lars Maaløe, Anders Søgaard, Christian Igel

摘要

语音理解（Spoken Language Understanding, SLU）任务通常采用两阶段处理方式：首先通过自动语音识别（Automatic Speech Recognition, ASR）将语音转写为文本，再将转写结果输入基于文本的模型进行后续处理。近年来，语音数据的自监督表示学习取得了显著进展，主要集中在提升ASR模块的性能。本文探讨了语音表示学习是否已发展到足以在SLU任务中替代ASR的程度。我们对比了wav2vec 2.0学习得到的语音特征、当前最先进的ASR转写结果以及真实文本（ground truth）作为输入，在一项新型基于语音的命名实体识别任务、一项真实急救电话中的心脏骤停检测任务，以及两个现有的SLU基准测试上的表现。实验结果表明，在三项分类任务中，学习到的语音特征优于ASR转写文本。然而，在机器翻译任务中，ASR转写文本仍是更优选择。本文进一步指出，wav2vec 2.0表示对未登录词（out-of-vocabulary words）具有内在的鲁棒性，这是其在多项任务中表现更优的关键原因。