Lip Reading Sentences in the Wild Lippenlesen von Sätzen im Freien

Das Ziel dieser Arbeit besteht darin, Phrasen und Sätze zu erkennen, die von einem sprechenden Gesicht ausgesprochen werden, mit oder ohne Audio. Im Gegensatz zu früheren Arbeiten, die sich auf die Erkennung einer begrenzten Anzahl von Wörtern oder Phrasen konzentriert haben, behandeln wir das Lippenlesen als ein offenes Problem – unbeschränkte natürliche Sprachsätze und Videos im echten Leben.Unsere wesentlichen Beiträge sind: (1) ein „Watch, Listen, Attend and Spell“ (WLAS)-Netzwerk, das lernt, Videos von Mundbewegungen in Buchstaben zu transkribieren; (2) eine Curriculum-Lernstrategie zur Beschleunigung des Trainings und zur Reduzierung des Überanpassens; (3) ein „Lip Reading Sentences“ (LRS)-Datensatz für visuelle Spracherkennung, der über 100.000 natürliche Sätze aus britischen Fernsehsendungen umfasst.Das auf dem LRS-Datensatz trainierte WLAS-Modell übertreffen die Leistung aller früheren Arbeiten auf standardisierten Lippenlese-Benchmark-Datensätzen oft deutlich. Diese Lippenleseleistung übertrifft sogar die eines professionellen Lippenlesers bei Videos vom BBC-Fernsehen, und wir zeigen auch, dass visuelle Informationen dazu beitragen, die Spracherkennungsleistung zu verbessern, selbst wenn das Audio verfügbar ist.