HyperAIHyperAI
vor einem Monat

Mehrskaliges räumlich-zeitliches Modellierung für das Lippenlesen

Chenhao Wang
Mehrskaliges räumlich-zeitliches Modellierung für das Lippenlesen
Abstract

Lip-Reading zielt darauf ab, mithilfe der visuellen Analyse von Sprechervideos den Sprachinhalt zu erkennen. Dies ist eine herausfordernde Aufgabe aufgrund der Existenz von Homophonen – Wörtern, die identische oder sehr ähnliche Lippenbewegungen erzeugen – sowie der vielfältigen Lippenerscheinungen und Bewegungsmuster bei verschiedenen Sprechern. Um diese Herausforderungen anzugehen, schlagen wir ein neues Lippenlesemodell vor, das nicht nur die Nuancen zwischen Wörtern, sondern auch die Stile verschiedener Sprecher durch eine mehrschichtige räumlich-zeitliche Modellierung des Sprechprozesses erfassen kann. Insbesondere extrahieren wir zunächst sowohl feingranulare Frame-Level-Features als auch mittelgranulare kurzfristige Features durch das visuelle Frontend, die dann kombiniert werden, um diskriminative Darstellungen für Wörter mit ähnlichen Phonemen zu erhalten. Anschließend aggregiert ein bidirektionales ConvLSTM, das mit zeitlicher Aufmerksamkeit erweitert wurde, räumlich-zeitliche Informationen in der gesamten Eingabe-Sequenz. Dies soll es ermöglichen, die grobgranularen Muster jedes Wortes zu erfassen und robust gegenüber verschiedenen Bedingungen wie der Identität des Sprechers und Beleuchtungsbedingungen zu sein. Durch die vollständige Nutzung von Informationen auf verschiedenen Ebenen in einem einheitlichen Framework ist das Modell nicht nur in der Lage, Wörter mit ähnlicher Aussprache zu unterscheiden, sondern wird auch robust gegenüber Änderungen in der Erscheinungsbildgebung. Wir evaluieren unsere Methode an zwei anspruchsvollen Benchmarks für wortbasierte Lippenlesung und zeigen die Effektivität des vorgeschlagenen Verfahrens, was die oben genannten Ansprüche ebenfalls bestätigt.

Mehrskaliges räumlich-zeitliches Modellierung für das Lippenlesen | Neueste Forschungsarbeiten | HyperAI