
摘要
近年来深度学习的进展直接惠及了自动语音识别(ASR)领域。然而,尽管过去几十年取得了显著成就,自然且稳健的人机语音交互在具有显著噪声和混响等挑战性环境中的实现仍然遥不可及。为了提高鲁棒性,现代语音识别系统通常采用基于循环神经网络(RNNs)的声学模型,这些模型能够自然地利用长时间上下文和长期语音调制。因此,继续研究改进RNN处理语音信号的有效技术具有重要意义。本文重新审视了一种最流行的RNN模型——门控循环单元(GRUs),并提出了一种简化架构,该架构在ASR中表现出非常高的有效性。本工作的贡献有两方面:首先,我们分析了重置门的作用,发现其与更新门存在显著冗余。因此,我们建议从GRU设计中移除重置门,从而得到一个更高效、紧凑的单门模型。其次,我们提议用ReLU激活函数替代双曲正切激活函数。这一变化与批归一化结合良好,并有助于模型在没有数值问题的情况下学习长期依赖关系。实验结果表明,所提出的架构称为轻量级GRU(Light GRU, Li-GRU),不仅比标准GRU每轮训练时间减少了超过30%,而且在不同任务、输入特征、噪声条件以及不同的ASR范式下均能持续提升识别准确率,这些范式包括从标准DNN-HMM语音识别器到端到端CTC模型。