HyperAIHyperAI

Command Palette

Search for a command to run...

Lip Reading Sentences in the Wild Lippenlesen von Sätzen im Freien

Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

Zusammenfassung

Das Ziel dieser Arbeit besteht darin, Phrasen und Sätze zu erkennen, die von einem sprechenden Gesicht ausgesprochen werden, mit oder ohne Audio. Im Gegensatz zu früheren Arbeiten, die sich auf die Erkennung einer begrenzten Anzahl von Wörtern oder Phrasen konzentriert haben, behandeln wir das Lippenlesen als ein offenes Problem – unbeschränkte natürliche Sprachsätze und Videos im echten Leben.Unsere wesentlichen Beiträge sind: (1) ein „Watch, Listen, Attend and Spell“ (WLAS)-Netzwerk, das lernt, Videos von Mundbewegungen in Buchstaben zu transkribieren; (2) eine Curriculum-Lernstrategie zur Beschleunigung des Trainings und zur Reduzierung des Überanpassens; (3) ein „Lip Reading Sentences“ (LRS)-Datensatz für visuelle Spracherkennung, der über 100.000 natürliche Sätze aus britischen Fernsehsendungen umfasst.Das auf dem LRS-Datensatz trainierte WLAS-Modell übertreffen die Leistung aller früheren Arbeiten auf standardisierten Lippenlese-Benchmark-Datensätzen oft deutlich. Diese Lippenleseleistung übertrifft sogar die eines professionellen Lippenlesers bei Videos vom BBC-Fernsehen, und wir zeigen auch, dass visuelle Informationen dazu beitragen, die Spracherkennungsleistung zu verbessern, selbst wenn das Audio verfügbar ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lip Reading Sentences in the Wild Lippenlesen von Sätzen im Freien | Paper | HyperAI