HyperAIHyperAI
vor 10 Tagen

Maximierung der gegenseitigen Information für effektives Lippenlesen

Xing Zhao, Shuang Yang, Shiguang Shan, Xilin Chen
Maximierung der gegenseitigen Information für effektives Lippenlesen
Abstract

Lip-Reading hat in den letzten Jahren aufgrund der raschen Entwicklung von Deep Learning und seiner vielfältigen potenziellen Anwendungen zunehmend an Forschungsinteresse gewonnen. Ein entscheidender Faktor für eine hohe Leistungsfähigkeit im Lip-Reading hängt stark davon ab, wie effektiv die Merkmalsdarstellung die Lippenbewegungsinformationen erfassen kann, gleichzeitig aber Störungen infolge von Veränderungen der Pose, Beleuchtungsbedingungen, Erscheinungsbild des Sprechers usw. widerstehen kann. Um dieses Ziel zu erreichen, schlagen wir vor, auf beiden Ebenen – der lokalen Merkmals- und der globalen Sequenzebene – Einschränkungen basierend auf der gegenseitigen Information (mutual information) einzuführen, um die Beziehung zwischen den Merkmalen und dem Sprachinhalt zu stärken. Einerseits zwingen wir die zu jedem Zeitpunkt generierten Merkmale, eine starke Beziehung zum Sprachinhalt aufzubauen, indem wir eine lokale Maximierung der gegenseitigen Information (Local Mutual Information Maximization, LMIM) einführen. Dadurch wird die Fähigkeit des Modells verbessert, feinabgestufte Lippenbewegungen und feinere Unterschiede zwischen Wörtern mit ähnlicher Aussprache – wie beispielsweise „spend“ und „spending“ – zu erkennen. Andererseits führen wir eine Maximierung der gegenseitigen Information auf der globalen Sequenzebene (Global Mutual Information Maximization, GMIM) ein, um das Modell dazu zu bringen, sich stärker auf diejenigen Schlüsselbilder zu konzentrieren, die mit dem Sprachinhalt verknüpft sind, und weniger auf die verschiedenen Störungen, die während des Sprechens auftreten. Durch die Kombination dieser beiden Vorteile erwartet das vorgeschlagene Verfahren eine hohe Diskriminierbarkeit und Robustheit für eine effektive Lippenlesung. Um die Wirksamkeit dieser Methode zu überprüfen, evaluieren wir sie an zwei großen Benchmark-Datenbanken. Wir führen eine detaillierte Analyse und Vergleichsuntersuchung auf mehreren Aspekten durch, darunter den Vergleich von LMIM und GMIM mit der Baseline sowie die Visualisierung der gelernten Darstellungen. Die Ergebnisse bestätigen nicht nur die Wirksamkeit des vorgeschlagenen Ansatzes, sondern erreichen zudem neue SOTA-Leistungen (state-of-the-art) auf beiden Benchmark-Datenbanken.