Visuelle Spracherkennung in einem Fahrerassistenzsystem

Die visuelle Spracherkennung oder automatisierte Lippenlesung ist ein Bereich wachsender Aufmerksamkeit. Videodaten haben ihre Nützlichkeit in der multimodalen Spracherkennung bewiesen, insbesondere dann, wenn akustische Daten stark verrauscht oder gar nicht verfügbar sind. In diesem Artikel präsentieren wir eine neuartige Methode zur visuellen Spracherkennung. Wir evaluieren sie anhand des bekannten LRW-Lippenlesedatensatzes und erreichen dabei eine bessere Leistung als bestehende Ansätze. Nach einer umfassenden Bewertung adaptieren wir die entwickelte Methode und testen sie anhand des von uns im Freien aufgezeichneten RUSAVIC-Korpus, das speziell für Fahrzeugführer erfasst wurde. Die erzielten Ergebnisse belegen nicht nur die hohe Leistungsfähigkeit der vorgeschlagenen Methode, sondern auch die grundsätzliche Möglichkeit, Sprache ausschließlich anhand der Videomodalität zu erkennen – selbst unter schwierigen natürlichen Bedingungen wie dem Fahren.