vor 7 Monaten

Zusammenfassung

Lippenlesung zielt darauf ab, Texte aus der Bewegung des Mundes eines Sprechers zu dekodieren. In den letzten Jahren wurden Methoden der Lippenlesung für das Englische sowohl auf Wort- als auch auf Satzebene erheblich verbessert. Im Gegensatz zum Englischen ist Chinesisch-Mandarin jedoch eine tonale Sprache, die sich auf Tonhöhen stützt, um lexikalische oder grammatikalische Bedeutungen zu unterscheiden. Dies erhöht die Ambiguität bei der Lippenlesung erheblich. In dieser Arbeit schlagen wir ein Kaskaden-Sequenz-zu-Sequenz-Modell für Chinesisch-Mandarin (CSSMCM) vor, das Töne explizit beim Vorhersagen von Sätzen modelliert. Die Töne werden basierend auf visuellen Informationen und syntaktischer Struktur modelliert und dienen zusammen mit diesen zur Vorhersage von Sätzen. Um CSSMCM zu evaluieren, wurde ein Datensatz namens CMLR (Chinese Mandarin Lip Reading) gesammelt und veröffentlicht, der über 100.000 natürliche Sätze vom Website des China Network Television enthält. Bei der Ausbildung am CMLR-Datensatz übertreffen die vorgeschlagenen CSSMCM die Leistung der besten aktuellen Lippenleseframeworks, was die Effektivität des expliziten Modellierens von Tonen für die Lippenlesung im Chinesisch-Mandarin bestätigt.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Computer Vision

Multimodal

Natürliche Sprachverarbeitung

Multimodal

Computervision

Aufgabe

Ya Zhao Rui Xu Mingli Song

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Computer Vision

Multimodal

Natürliche Sprachverarbeitung

Multimodal

Computervision

Aufgabe

Ya Zhao Rui Xu Mingli Song

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Ein Kaskaden-Sequenz-zu-Sequenz-Modell für die Lippenlesung im Chinesischen Mandarin | Paper | HyperAI

Command Palette

Ein Kaskaden-Sequenz-zu-Sequenz-Modell für die Lippenlesung im Chinesischen Mandarin

Ya Zhao Rui Xu Mingli Song

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein Kaskaden-Sequenz-zu-Sequenz-Modell für die Lippenlesung im Chinesischen Mandarin

Ya Zhao Rui Xu Mingli Song

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein Kaskaden-Sequenz-zu-Sequenz-Modell für die Lippenlesung im Chinesischen Mandarin

Ya Zhao Rui Xu Mingli Song

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters