Ein Kaskaden-Sequenz-zu-Sequenz-Modell für die Lippenlesung im Chinesischen Mandarin

Lippenlesung zielt darauf ab, Texte aus der Bewegung des Mundes eines Sprechers zu dekodieren. In den letzten Jahren wurden Methoden der Lippenlesung für das Englische sowohl auf Wort- als auch auf Satzebene erheblich verbessert. Im Gegensatz zum Englischen ist Chinesisch-Mandarin jedoch eine tonale Sprache, die sich auf Tonhöhen stützt, um lexikalische oder grammatikalische Bedeutungen zu unterscheiden. Dies erhöht die Ambiguität bei der Lippenlesung erheblich. In dieser Arbeit schlagen wir ein Kaskaden-Sequenz-zu-Sequenz-Modell für Chinesisch-Mandarin (CSSMCM) vor, das Töne explizit beim Vorhersagen von Sätzen modelliert. Die Töne werden basierend auf visuellen Informationen und syntaktischer Struktur modelliert und dienen zusammen mit diesen zur Vorhersage von Sätzen. Um CSSMCM zu evaluieren, wurde ein Datensatz namens CMLR (Chinese Mandarin Lip Reading) gesammelt und veröffentlicht, der über 100.000 natürliche Sätze vom Website des China Network Television enthält. Bei der Ausbildung am CMLR-Datensatz übertreffen die vorgeschlagenen CSSMCM die Leistung der besten aktuellen Lippenleseframeworks, was die Effektivität des expliziten Modellierens von Tonen für die Lippenlesung im Chinesisch-Mandarin bestätigt.