Visuelle Spracherkennung für mehrere Sprachen im realen Einsatz

Visuelle Spracherkennung (VSR) zielt darauf ab, den Inhalt von Sprache auf Basis von Lippenbewegungen zu erkennen, ohne auf den Audiostream zurückzugreifen. Fortschritte im Bereich des tiefen Lernens und die Verfügbarkeit großer audiovisueller Datensätze haben zur Entwicklung von VSR-Modellen geführt, die viel genauer und robuster sind als je zuvor. Diese Fortschritte basieren jedoch in der Regel auf größeren Trainingsdatensätzen anstatt auf dem Modelldesign. Hier zeigen wir, dass das Design bessere Modelle ebenso wichtig ist wie der Einsatz größerer Trainingsdatensätze. Wir schlagen die Hinzufügung vorhersagebasierter Nebenaufgaben zu einem VSR-Modell vor und betonen die Bedeutung der Hyperparameter-Optimierung sowie angemessener Datenverstärkungen. Wir demonstrieren, dass ein solches Modell für verschiedene Sprachen funktioniert und alle bisherigen Methoden, die mit öffentlich verfügbaren Datensätzen trainiert wurden, um ein großes Maß übertrifft. Es übertrifft sogar Modelle, die mit nicht öffentlich verfügbaren Datensätzen trainiert wurden, die bis zu 21-mal mehr Daten enthalten. Darüber hinaus zeigen wir, dass der Einsatz zusätzlicher Trainingsdaten, auch in anderen Sprachen oder mit automatisch generierten Transkriptionen, zu weiteren Verbesserungen führt.