HyperAIHyperAI

Command Palette

Search for a command to run...

Ein Kaskaden-Sequenz-zu-Sequenz-Modell für die Lippenlesung im Chinesischen Mandarin

Ya Zhao Rui Xu Mingli Song

Zusammenfassung

Lippenlesung zielt darauf ab, Texte aus der Bewegung des Mundes eines Sprechers zu dekodieren. In den letzten Jahren wurden Methoden der Lippenlesung für das Englische sowohl auf Wort- als auch auf Satzebene erheblich verbessert. Im Gegensatz zum Englischen ist Chinesisch-Mandarin jedoch eine tonale Sprache, die sich auf Tonhöhen stützt, um lexikalische oder grammatikalische Bedeutungen zu unterscheiden. Dies erhöht die Ambiguität bei der Lippenlesung erheblich. In dieser Arbeit schlagen wir ein Kaskaden-Sequenz-zu-Sequenz-Modell für Chinesisch-Mandarin (CSSMCM) vor, das Töne explizit beim Vorhersagen von Sätzen modelliert. Die Töne werden basierend auf visuellen Informationen und syntaktischer Struktur modelliert und dienen zusammen mit diesen zur Vorhersage von Sätzen. Um CSSMCM zu evaluieren, wurde ein Datensatz namens CMLR (Chinese Mandarin Lip Reading) gesammelt und veröffentlicht, der über 100.000 natürliche Sätze vom Website des China Network Television enthält. Bei der Ausbildung am CMLR-Datensatz übertreffen die vorgeschlagenen CSSMCM die Leistung der besten aktuellen Lippenleseframeworks, was die Effektivität des expliziten Modellierens von Tonen für die Lippenlesung im Chinesisch-Mandarin bestätigt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein Kaskaden-Sequenz-zu-Sequenz-Modell für die Lippenlesung im Chinesischen Mandarin | Paper | HyperAI