HyperAIHyperAI

Command Palette

Search for a command to run...

Tiefe Audiovisuelle Spracherkennung

Triantafyllos Afouras Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

Zusammenfassung

Das Ziel dieser Arbeit besteht darin, Phrasen und Sätze zu erkennen, die von einem sprechenden Gesicht ausgesprochen werden, mit oder ohne Audio. Im Gegensatz zu früheren Arbeiten, die sich auf die Erkennung einer begrenzten Anzahl von Wörtern oder Phrasen konzentriert haben, behandeln wir das Lippenlesen als ein offenes Problem – unbeschränkte natürliche Sprachsätze und Videos im echten Leben. Unsere wesentlichen Beiträge sind: (1) Wir vergleichen zwei Modelle für das Lippenlesen, eines verwendet einen CTC-Verlust (Connectionist Temporal Classification), das andere einen Sequenz-zu-Sequenz-Verlust. Beide Modelle basieren auf der Transformer-Selbst-Aufmerksamkeitsarchitektur; (2) Wir untersuchen, inwiefern das Lippenlesen dem Audiospracherkennung ergänzend ist, insbesondere wenn das Audiosignal rauschig ist; (3) Wir stellen einen neuen Datensatz für audiovisuelle Spracherkennung vor und veröffentlichen ihn öffentlich: LRS2-BBC, der Tausende natürlicher Sätze aus britischen Fernsehsendungen umfasst. Die von uns trainierten Modelle übertreffen die Leistung aller früheren Arbeiten auf einem Benchmark-Datensatz für Lippenlesen erheblich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp