HyperAIHyperAI

Command Palette

Search for a command to run...

Pseudo-Konvolutioneller Policy Gradient für sequenz-zu-Sequenz Lippenlesen

Mingshuang Luo Shuang Yang Shiguang Shan Xilin Chen

Zusammenfassung

Die Lippenlesung zielt darauf ab, den Sprachinhalt aus einer Folge von Lippenbewegungen abzuleiten und kann als ein typisches sequenz-zu-Sequenz-(seq2seq)-Problem betrachtet werden, bei dem die Eingabebildsequenz der Lippenbewegungen in die Textsequenz des Sprachinhalts übersetzt wird. Allerdings leidet der traditionelle Lernprozess von seq2seq-Modellen stets unter zwei Problemen: der Expositionsverzerrung, die durch die Strategie des „Teacher-Forcing“ verursacht wird, sowie der Diskrepanz zwischen dem diskriminativen Optimierungsziel (üblicherweise die Kreuzentropieverlustfunktion) und dem endgültigen Bewertungsmaßstab (üblicherweise die Zeichen-/Wortfehlerquote). In diesem Artikel stellen wir eine neuartige Methode basierend auf einem pseudo-konvolutionellen Policy Gradient (PCPG) vor, um diese beiden Probleme anzugehen. Einerseits integrieren wir das Bewertungsmaß (im vorliegenden Fall die Zeichenfehlerquote) als Belohnung, um das Modell gemeinsam mit dem ursprünglichen diskriminativen Ziel zu optimieren. Andererseits lassen wir uns von der lokalen Wahrnehmungseigenschaft der konvolutionellen Operation inspirieren und führen eine pseudo-konvolutionelle Operation entlang der Belohnungs- und Verlustdimension durch, um kontextuelle Informationen um jeden Zeitpunkt stärker zu berücksichtigen und so eine robuste Belohnung und einen stabilen Verlust für die gesamte Optimierung zu generieren. Schließlich führen wir eine umfassende Vergleichs- und Evaluationsstudie auf Wort- und Satzebene durch. Die Ergebnisse zeigen eine signifikante Verbesserung gegenüber anderen verwandten Ansätzen und erreichen entweder eine neue State-of-the-Art-Leistung oder eine konkurrenzfähige Genauigkeit auf allen anspruchsvollen Benchmarks – was eindeutig die Vorteile unseres Ansatzes belegt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Pseudo-Konvolutioneller Policy Gradient für sequenz-zu-Sequenz Lippenlesen | Paper | HyperAI