HyperAIHyperAI
vor 9 Tagen

Können wir Sprache jenseits der Lippen lesen? Eine Neubewertung der RoI-Auswahl für tiefe visuelle Spracherkennung

Yuanhang Zhang, Shuang Yang, Jingyun Xiao, Shiguang Shan, Xilin Chen
Können wir Sprache jenseits der Lippen lesen? Eine Neubewertung der RoI-Auswahl für tiefe visuelle Spracherkennung
Abstract

In jüngster Zeit hat der Fortschritt in der tiefen Lernverfahren das Interesse der Forscher am Bereich der visuellen Spracherkennung (Visual Speech Recognition, VSR) erheblich gesteigert. Derzeit werden die meisten bestehenden Ansätze VSR mit automatischem Lippenlesen gleichsetzen, bei dem Sprache anhand der Lippenbewegung erkannt werden soll. Allerdings legen menschliche Erfahrung und psychologische Studien nahe, dass wir während eines persönlichen Gesprächs nicht stets auf die Lippen des Gegenübers starren, sondern vielmehr wiederholt das gesamte Gesicht scannen. Dies motiviert uns, ein grundlegendes, jedoch bisher etwas vernachlässigtes Problem erneut zu untersuchen: Kann die Leistung von VSR-Modellen durch die Berücksichtigung zusätzlicher, außerhalb der Lippen liegender Gesichtsregionen – also jenseits der Lippen – verbessert werden? In dieser Arbeit führen wir eine umfassende Studie durch, um die Auswirkungen verschiedener Gesichtsregionen mit modernsten VSR-Modellen zu bewerten, darunter Mund, gesamtes Gesicht, oberes Gesicht und sogar die Wangen. Experimente werden sowohl auf Wort- als auch auf Satzebene an Benchmarks mit unterschiedlichen Eigenschaften durchgeführt. Wir stellen fest, dass sich trotz der komplexen Datenvariationen die Einbeziehung von Informationen aus außerhalb der Lippen liegenden Gesichtsregionen – selbst aus dem oberen Gesicht – konsistent positiv auf die VSR-Leistung auswirkt. Darüber hinaus stellen wir eine einfache, jedoch wirksame Methode vor, die auf Cutout basiert, um differenziertere Merkmale für die gesichtsbasierte VSR zu lernen, mit dem Ziel, das volle Potenzial der in verschiedenen Gesichtsregionen kodierten Informationen auszuschöpfen. Unsere Experimente zeigen deutliche Verbesserungen gegenüber bestehenden State-of-the-Art-Verfahren, die lediglich die Lippenregion als Eingabe verwenden. Wir sind überzeugt, dass diese Ergebnisse der VSR-Community neue und spannende Erkenntnisse liefern könnten.