6 个月前

摘要

唇读旨在通过分析唇部运动序列推断出语音内容，可被视为一种典型的序列到序列（seq2seq）问题，即把输入的唇部运动图像序列转化为对应的语音文本序列。然而，传统的seq2seq模型学习过程通常面临两个关键问题：一是由于采用“教师强制”（teacher-forcing）策略导致的暴露偏差（exposure bias）；二是判别式优化目标（通常为交叉熵损失）与最终评估指标（通常为字符错误率或词错误率）之间存在不一致。针对上述问题，本文提出一种基于伪卷积策略梯度（Pseudo-Convolutional Policy Gradient, PCPG）的新方法。一方面，我们将评估指标（本文中指字符错误率）作为奖励信号，与原始判别性目标联合优化模型；另一方面，受卷积操作局部感知特性的启发，我们在奖励与损失维度上引入伪卷积操作，以充分考虑每个时间步周围的上下文信息，从而生成更具鲁棒性的奖励与损失信号，用于整体优化过程。最后，我们在词级与句级两个层面的基准数据集上进行了全面的对比与评估。实验结果表明，所提方法显著优于现有相关方法，在所有具有挑战性的基准测试中均取得了新的最先进性能，或达到了具有竞争力的准确率，充分验证了该方法的有效性与优越性。

源 PDF