Pseudo-Konvolutioneller Policy Gradient für sequenz-zu-Sequenz Lippenlesen

Die Lippenlesung zielt darauf ab, den Sprachinhalt aus einer Folge von Lippenbewegungen abzuleiten und kann als ein typisches sequenz-zu-Sequenz-(seq2seq)-Problem betrachtet werden, bei dem die Eingabebildsequenz der Lippenbewegungen in die Textsequenz des Sprachinhalts übersetzt wird. Allerdings leidet der traditionelle Lernprozess von seq2seq-Modellen stets unter zwei Problemen: der Expositionsverzerrung, die durch die Strategie des „Teacher-Forcing“ verursacht wird, sowie der Diskrepanz zwischen dem diskriminativen Optimierungsziel (üblicherweise die Kreuzentropieverlustfunktion) und dem endgültigen Bewertungsmaßstab (üblicherweise die Zeichen-/Wortfehlerquote). In diesem Artikel stellen wir eine neuartige Methode basierend auf einem pseudo-konvolutionellen Policy Gradient (PCPG) vor, um diese beiden Probleme anzugehen. Einerseits integrieren wir das Bewertungsmaß (im vorliegenden Fall die Zeichenfehlerquote) als Belohnung, um das Modell gemeinsam mit dem ursprünglichen diskriminativen Ziel zu optimieren. Andererseits lassen wir uns von der lokalen Wahrnehmungseigenschaft der konvolutionellen Operation inspirieren und führen eine pseudo-konvolutionelle Operation entlang der Belohnungs- und Verlustdimension durch, um kontextuelle Informationen um jeden Zeitpunkt stärker zu berücksichtigen und so eine robuste Belohnung und einen stabilen Verlust für die gesamte Optimierung zu generieren. Schließlich führen wir eine umfassende Vergleichs- und Evaluationsstudie auf Wort- und Satzebene durch. Die Ergebnisse zeigen eine signifikante Verbesserung gegenüber anderen verwandten Ansätzen und erreichen entweder eine neue State-of-the-Art-Leistung oder eine konkurrenzfähige Genauigkeit auf allen anspruchsvollen Benchmarks – was eindeutig die Vorteile unseres Ansatzes belegt.