2 个月前
用于端到端自动语音识别的四元数卷积神经网络
Titouan Parcollet; Ying Zhang; Mohamed Morchid; Chiheb Trabelsi; Georges Linarès; Renato De Mori; Yoshua Bengio

摘要
近日,连接时序分类(Connectionist Temporal Classification, CTC)模型与循环神经网络(Recurrent Neural Networks, RNN)或卷积神经网络(Convolutional Neural Networks, CNN)相结合,使得端到端训练语音识别系统变得更加容易。然而,在实值模型中,时间帧组件如梅尔滤波器组能量和从中提取的倒谱系数及其一阶和二阶导数被作为单独的元素进行处理,而一种更为自然的替代方法是将这些组件作为复合实体进行处理。我们提出将这些元素以四元数的形式分组,并使用已建立的四元数代数来处理这些四元数。四元数和四元数神经网络在处理多维输入作为实体、编码内部依赖关系以及用较少的学习参数解决许多任务方面表现出其有效性。本文提出将多个特征视图集成到四元数值卷积神经网络(Quaternion-valued Convolutional Neural Network, QCNN)中,用于与CTC模型结合的序列到序列映射。实验结果表明,使用简单的QCNN在TIMIT语料库上的音素识别实验中取得了有前景的结果。具体而言,QCNN在使用较少学习参数的情况下获得了比基于实值CNN的竞争模型更低的音素错误率(Phoneme Error Rate, PER)。