17 天前
我们是否仍然需要自动语音识别(Automatic Speech Recognition)来实现口语理解?
Lasse Borgholt, Jakob Drachmann Havtorn, Mostafa Abdou, Joakim Edin, Lars Maaløe, Anders Søgaard, Christian Igel

摘要
语音理解(Spoken Language Understanding, SLU)任务通常采用两阶段处理方式:首先通过自动语音识别(Automatic Speech Recognition, ASR)将语音转写为文本,再将转写结果输入基于文本的模型进行后续处理。近年来,语音数据的自监督表示学习取得了显著进展,主要集中在提升ASR模块的性能。本文探讨了语音表示学习是否已发展到足以在SLU任务中替代ASR的程度。我们对比了wav2vec 2.0学习得到的语音特征、当前最先进的ASR转写结果以及真实文本(ground truth)作为输入,在一项新型基于语音的命名实体识别任务、一项真实急救电话中的心脏骤停检测任务,以及两个现有的SLU基准测试上的表现。实验结果表明,在三项分类任务中,学习到的语音特征优于ASR转写文本。然而,在机器翻译任务中,ASR转写文本仍是更优选择。本文进一步指出,wav2vec 2.0表示对未登录词(out-of-vocabulary words)具有内在的鲁棒性,这是其在多项任务中表现更优的关键原因。