HyperAIHyperAI
vor 9 Tagen

Hören mit den Lippen: Verbesserung des Lippenlesens durch das Ableiten von Spracherkennungssystemen

Ya Zhao, Rui Xu, Xinchao Wang, Peng Hou, Haihong Tang, Mingli Song
Hören mit den Lippen: Verbesserung des Lippenlesens durch das Ableiten von Spracherkennungssystemen
Abstract

Die Lippenlesung hat in den letzten Jahren aufgrund von Deep Learning und der Verfügbarkeit großer Datensätze eine bisher ungekannte Entwicklung erfahren. Trotz der vielversprechenden Ergebnisse bleibt die Leistungsfähigkeit der Lippenlesung jedoch hinter der ihrer Gegenstückes, der Spracherkennung, zurück, da die Aktionsabläufe bei der Lippenbewegung mehrdeutig sind und somit die Extraktion diskriminativer Merkmale aus Lippenbewegungs-Videos herausfordernd ist. In diesem Paper stellen wir eine neue Methode vor, die als Lip by Speech (LIBS) bezeichnet wird, deren Ziel darin besteht, die Lippenlesung durch das Lernen von Spracherkennern zu stärken. Die Grundidee unseres Ansatzes beruht darauf, dass die aus Spracherkennern extrahierten Merkmale ergänzende und diskriminative Hinweise liefern können, die aus den feinen Bewegungen der Lippen allein schwer zu gewinnen sind, und somit die Ausbildung von Lippenlesesystemen erleichtern. Dies wird spezifisch durch die Auswertung von Wissen mit mehreren Granularitäten aus Spracherkennern für Lippenlesesysteme erreicht. Um diese multimodale Wissens-Distillation durchzuführen, verwenden wir eine effektive Ausrichtungsstrategie zur Behandlung der unterschiedlichen Längen von Audio- und Videodaten sowie eine innovative Filterstrategie zur Verfeinerung der Vorhersagen des Spracherkenners. Die vorgeschlagene Methode erreicht eine neue Soll- und Bestleistung auf den Datensätzen CMLR und LRS2 und übertrifft die Baseline hinsichtlich des Zeichenfehlerquoten um 7,66 % bzw. 2,75 %.