摘要
我们提出了一种新型的资源高效端到端唇读架构,在一个广泛使用且极具挑战性的基准测试上取得了当前最优的性能。具体而言,本文作出以下贡献:首先,受近期EfficientNet架构在图像分类任务中取得成功的启发,并结合我们此前在资源高效唇读模型(MobiLipNet)方面的研究基础,首次将EfficientNet引入唇读任务。其次,我们发现当前文献中广泛采用的3D前端结构中包含一个最大池化(max-pool)层,该层会限制网络性能的进一步提升,因此提出移除该层以释放模型潜力。最后,通过引入Transformer编码器,显著增强了系统后端的鲁棒性。我们在“野生环境下的唇读”(Lipreading In-The-Wild, LRW)语料库上对所提系统进行了评估,该语料库包含来自BBC电视广播的短时视频片段。所提出的网络(T-variant)在保持五倍更低计算开销的前提下,达到了88.53%的词准确率,相较当前最优方法实现了0.17%的绝对性能提升;此外,模型的放大版本(L-variant)进一步取得了89.52%的词准确率,刷新了LRW语料库上的最新纪录,成为该任务的新最优结果。