Gradient de politique pseudo-convolutionnel pour la lecture labiale séquentielle à séquence

La lecture labiale vise à inférer le contenu parlé à partir d'une séquence de mouvements des lèvres, pouvant être considérée comme un problème typique de séquence à séquence (seq2seq), qui consiste à traduire une séquence d’images d’images des mouvements labiaux en une séquence de texte correspondant au discours. Toutefois, le processus d’apprentissage traditionnel des modèles seq2seq souffre généralement de deux problèmes : le biais d’exposition dû à la stratégie de « teacher-forcing », et l’incohérence entre l’objectif d’optimisation discriminatif (généralement la perte d’entropie croisée) et le métrique d’évaluation finale (habituellement le taux d’erreur par caractère ou par mot). Dans cet article, nous proposons une nouvelle méthode fondée sur un gradient de politique pseudo-convolutionnel (PCPG) afin de résoudre ces deux problèmes. D’une part, nous intégrons la métrique d’évaluation (ici, le taux d’erreur par caractère) sous la forme d’une récompense pour optimiser conjointement le modèle avec le critère discriminatif initial. D’autre part, inspirés de la propriété de perception locale des opérations de convolution, nous appliquons une opération pseudo-convolutionnelle sur les dimensions de récompense et de perte, afin de prendre en compte un contexte plus étendu autour de chaque instant temporel, et ainsi générer une récompense et une perte robustes pour l’optimisation globale. Enfin, nous menons une évaluation approfondie et comparative sur des benchmarks au niveau des mots et au niveau des phrases. Les résultats montrent une amélioration significative par rapport aux méthodes connexes, atteignant soit une nouvelle performance de l’état de l’art, soit une précision compétitive sur tous ces benchmarks exigeants, démontrant clairement les avantages de notre approche.