HyperAIHyperAI
vor einem Monat

Großmaßstäbliche visuelle Spracherkennung

Brendan Shillingford; Yannis Assael; Matthew W. Hoffman; Thomas Paine; Cían Hughes; Utsav Prabhu; Hank Liao; Hasim Sak; Kanishka Rao; Lorrayne Bennett; Marie Mulville; Ben Coppin; Ben Laurie; Andrew Senior; Nando de Freitas
Großmaßstäbliche visuelle Spracherkennung
Abstract

Diese Arbeit präsentiert eine skalierbare Lösung für die offene Vokabular-Visuelle Spracherkennung. Um dies zu erreichen, haben wir den größten existierenden Datensatz für visuelle Spracherkennung erstellt, der aus Text-Videoschneiden-Paaren von sprechenden Gesichtern besteht (3.886 Stunden Video). Parallel dazu haben wir ein integriertes Lippenlesesystem konzipiert und trainiert, das aus einer Videobearbeitungs Pipeline besteht, die rohes Video in stabile Videos von Lippen und Phonemsequenzen abbildet, einem skalierbaren tiefen neuronalen Netzwerk, das die Lippenvideos auf Sequenzen von Phonemverteilungen abbildet, sowie einem sprachtechnischen Decoder auf Produktionsniveau, der Sequenzen von Wörtern ausgibt. Das vorgeschlagene System erreicht eine Wortfehlerquote (WER) von 40,9 %, wie anhand eines separaten Testsets gemessen. Im Vergleich dazu erreichen professionelle Lippenleser bei Zugriff auf zusätzliche Arten kontextueller Informationen entweder 86,4 % oder 92,9 % WER auf demselben Datensatz. Unser Ansatz verbessert sich signifikant gegenüber anderen Lippenlesmethoden, einschließlich Varianten von LipNet und Watch, Attend and Spell (WAS), die jeweils nur 89,8 % und 76,8 % WER erzielen können.