17 天前
基于单头注意力的序列到序列模型在Switchboard数据集上实现最先进性能
Zoltán Tüske, George Saon, Kartik Audhkhasi, Brian Kingsbury

摘要
普遍认为,只有在拥有至少一千小时规模的训练数据时,端到端的序列到序列(seq2seq)语音识别模型才能与混合模型相媲美。本文表明,仅采用单一注意力头、基于LSTM的模型,即可在Switchboard-300数据集上实现当前最先进的识别性能。通过引入跨话语语言模型,我们的单次遍历、说话人无关系统在Hub5'00的Switchboard和CallHome子集上分别取得了6.4%和12.5%的词错误率(WER),且无需使用发音词典。尽管精心设计的正则化策略与数据增强技术对于达到这一性能水平至关重要,但在Switchboard-2000上的实验进一步表明,数据量的增加仍是提升性能最有效的手段。总体而言,结合多种正则化方法与一个结构简单但规模较大的模型,我们实现了新的最优水平:在Switchboard和CallHome数据集上分别达到4.7%和7.8%的WER,且仅使用SWB-2000数据,无需依赖任何外部数据资源。