Ein effektives Lippenlesmodell schmerzfrei erlernen

Lippenlesung, auch bekannt als visuelle Spracherkennung, zielt darauf ab, den sprachlichen Inhalt aus Videos durch die Analyse der Lippendynamik zu erkennen. In den letzten Jahren gab es einige bemerkenswerte Fortschritte, die sich stark von der raschen Entwicklung tiefer Lernverfahren (deep learning) und den kürzlich veröffentlichten großen Lippenlesungsdatensätzen profitieren. Die meisten existierenden Methoden erzielten hohe Leistungen, indem sie komplexe neuronale Netze aufbauten und mehrere angepasste Trainingsstrategien einsetzten, die oft nur kurz beschrieben oder sogar nur im Quellcode gezeigt wurden. Wir stellen fest, dass eine angemessene Nutzung dieser Strategien stets erfreuliche Verbesserungen bringen kann, ohne das Modell wesentlich zu verändern. Angesichts der nicht zu vernachlässigenden Auswirkungen dieser Strategien und des bestehenden Schwierigkeitsgrades, ein effektives Lippenlesungsmodell zu trainieren, führen wir erstmals eine umfassende quantitative Studie und einen vergleichenden Analyseschritt durch, um die Effekte verschiedener Optionen für Lippenlesung zu zeigen. Durch einfache Anpassungen am Baseline-Prozess erreichen wir eine deutliche Leistungsverbesserung von 83,7 % auf 88,4 % und von 38,2 % auf 55,7 % auf den beiden größten öffentlich zugänglichen Lippenlesungsdatensätzen LRW und LRW-1000. Diese Ergebnisse sind vergleichbar mit und übertreffen in manchen Fällen die bisher besten bekannten Resultate.