HyperAIHyperAI

Command Palette

Search for a command to run...

LipNet: End-to-End Satz-basierte Lippenlesung

Yannis M. Assael; Brendan Shillingford; Shimon Whiteson; Nando de Freitas

Zusammenfassung

Lipreading ist die Aufgabe, Text aus der Bewegung des Sprechermundes zu decodieren. Traditionelle Ansätze trennten das Problem in zwei Stufen: das Design oder Lernen visueller Merkmale und die Vorhersage. Neuere Deep-Lipreading-Ansätze sind von Ende zu Ende trainierbar (Wand et al., 2016; Chung & Zisserman, 2016a). Allerdings führen existierende Arbeiten mit Modellen, die von Ende zu Ende trainiert wurden, nur Wortsklassifikation durch und nicht sequenzielle Vorhersage auf Satzebene. Studien haben gezeigt, dass die menschliche Lippenlesleistung für längere Wörter steigt (Easton & Basala, 1982), was die Bedeutung von Merkmalen unterstreicht, die den zeitlichen Kontext in einem unklaren Kommunikationskanal erfassen. Angeregt durch diese Beobachtung präsentieren wir LipNet, ein Modell, das eine variabel lange Sequenz von Videoframes in Text umwandelt und dabei räumlich-zeitliche Faltungen (spatiotemporal convolutions), ein rekurrentes Netzwerk und den Verlust der connectionistischen zeitlichen Klassifikation (connectionist temporal classification loss) verwendet, vollständig von Ende zu Ende trainiert. Nach bestem Wissen ist LipNet das erste Modell zur Lippenlesung auf Satzebene, das gleichzeitig räumlich-zeitliche visuelle Merkmale und ein Sequenzmodell lernt. Im GRID-Korpus erreicht LipNet bei der Aufgabe der sequenziellen Vorhersage überlappender Sprecher eine Genauigkeit von 95,2 %, was erfahrenen menschlichen Lippenlesern sowie dem bisherigen Höchststand der Genauigkeit bei Wortsklassifikation von 86,4 % (Gergen et al., 2016) überlegen ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp