
摘要
近期,一系列独立研究提出了多种训练策略和时序模型,用于孤立词汇唇读。然而,尚未有人探索将这些最佳策略结合起来并研究每种策略的影响。在本文中,我们系统地研究了最先进的数据增强方法、时序模型以及其他训练策略(如自蒸馏和使用词边界指示器)的性能。我们的结果显示,时间遮罩(Time Masking, TM)是最重要的数据增强方法,其次是混合训练(mixup)。对于孤立词汇唇读而言,密集连接时序卷积网络(Densely-Connected Temporal Convolutional Networks, DC-TCN)是最优的时序模型。虽然使用自蒸馏和词边界指示器也有助益,但其效果相对较小。将上述所有方法结合使用后,分类准确率达到了93.4%,相比目前在LRW数据集上的最先进表现绝对提升了4.6%。通过在额外的数据集上进行预训练,性能可以进一步提高到94.1%。对各种训练策略的错误分析表明,性能提升主要体现在提高了难以识别词汇的分类准确率。