vor einem Monat

LipNet: End-to-End Satz-basierte Lippenlesung

Yannis M. Assael; Brendan Shillingford; Shimon Whiteson; Nando de Freitas

Abstract

Lipreading ist die Aufgabe, Text aus der Bewegung des Sprechermundes zu decodieren. Traditionelle Ansätze trennten das Problem in zwei Stufen: das Design oder Lernen visueller Merkmale und die Vorhersage. Neuere Deep-Lipreading-Ansätze sind von Ende zu Ende trainierbar (Wand et al., 2016; Chung & Zisserman, 2016a). Allerdings führen existierende Arbeiten mit Modellen, die von Ende zu Ende trainiert wurden, nur Wortsklassifikation durch und nicht sequenzielle Vorhersage auf Satzebene. Studien haben gezeigt, dass die menschliche Lippenlesleistung für längere Wörter steigt (Easton & Basala, 1982), was die Bedeutung von Merkmalen unterstreicht, die den zeitlichen Kontext in einem unklaren Kommunikationskanal erfassen. Angeregt durch diese Beobachtung präsentieren wir LipNet, ein Modell, das eine variabel lange Sequenz von Videoframes in Text umwandelt und dabei räumlich-zeitliche Faltungen (spatiotemporal convolutions), ein rekurrentes Netzwerk und den Verlust der connectionistischen zeitlichen Klassifikation (connectionist temporal classification loss) verwendet, vollständig von Ende zu Ende trainiert. Nach bestem Wissen ist LipNet das erste Modell zur Lippenlesung auf Satzebene, das gleichzeitig räumlich-zeitliche visuelle Merkmale und ein Sequenzmodell lernt. Im GRID-Korpus erreicht LipNet bei der Aufgabe der sequenziellen Vorhersage überlappender Sprecher eine Genauigkeit von 95,2 %, was erfahrenen menschlichen Lippenlesern sowie dem bisherigen Höchststand der Genauigkeit bei Wortsklassifikation von 86,4 % (Gergen et al., 2016) überlegen ist.