Trainingsstrategien zur Verbesserung des Lippenlesens

In letzter Zeit wurden verschiedene Trainingsstrategien und zeitliche Modelle in einer Reihe unabhängiger Arbeiten für die Lippenlesung einzelner Wörter vorgeschlagen. Dennoch wurde das Potenzial der Kombination der besten Strategien sowie die Untersuchung des Einflusses jeder einzelnen davon bisher nicht ausgeschöpft. In dieser Arbeit untersuchen wir systematisch die Leistung fortschrittlicher Datenverstärkungsansätze, zeitlicher Modelle und weiterer Trainingsstrategien wie Selbst-Distillation und der Verwendung von Wortgrenzindikatoren. Unsere Ergebnisse zeigen, dass Zeitmaske (Time Masking, TM) die wichtigste Verstärkungsmethode ist, gefolgt von Mixup. Zudem sind dicht verbundene zeitliche Faltungsnetze (Densely-Connected Temporal Convolutional Networks, DC-TCN) das beste zeitliche Modell für die Lippenlesung einzelner Wörter. Die Verwendung von Selbst-Distillation und Wortgrenzindikatoren ist ebenfalls vorteilhaft, aber in geringerem Maße. Eine Kombination aller oben genannten Methoden führt zu einer Klassifikationsgenauigkeit von 93,4 %, was eine absolute Verbesserung von 4,6 % gegenüber dem aktuellen Stand der Technik auf dem LRW-Datensatz darstellt. Die Leistung kann durch Vortrainieren auf zusätzlichen Datensätzen noch weiter verbessert werden, bis zu 94,1 %. Eine Fehleranalyse der verschiedenen Trainingsstrategien zeigt, dass die Leistung durch die Steigerung der Klassifikationsgenauigkeit schwer zu erkennender Wörter verbessert wird.