
摘要
由于神经网络的复兴,唇读技术近年来取得了显著进展。近期的研究主要聚焦于通过优化网络架构以提升性能或增强模型泛化能力。然而,当前的方法论与唇读技术在实际应用场景中有效部署的需求之间仍存在显著差距。本文提出一系列创新性改进,显著缩小了这一差距:首先,我们通过自蒸馏(self-distillation)技术,在LRW和LRW-1000数据集上分别将性能提升至88.5%和46.6%,大幅超越现有技术水平;其次,我们提出一系列架构优化,包括一种新型的深度可分离时序卷积网络(Depthwise Separable Temporal Convolutional Network, DS-TCN)头部结构,使模型的计算开销降至原始模型(已具备较高效率)的极小比例;第三,我们证明了知识蒸馏在恢复轻量化模型性能方面具有极强的有效性,从而构建出一系列在准确率与效率之间具有不同权衡的模型。值得注意的是,我们最具潜力的轻量化模型在性能上与当前最先进水平相当,同时在计算成本和参数量上分别降低了8.2倍和3.9倍。我们期望这些成果能够推动唇读模型在实际应用中的落地部署。