Conformer sind alles, was Sie für die visuelle Spracherkennung benötigen.

Visuelle Spracherkennungsmodelle extrahieren visuelle Merkmale auf hierarchische Weise. Auf der niedrigeren Ebene befindet sich eine visuelle Front-End mit einem begrenzten zeitlichen Rezeptorfeld, das die rohen Pixel verarbeitet, die Lippen oder Gesichter darstellen. Auf der höheren Ebene befindet sich ein Encoder, der die durch die Front-End erzeugten Einbettungen über ein großes zeitliches Rezeptorfeld berücksichtigt. Frühere Arbeiten haben sich darauf konzentriert, die visuelle Front-End des Modells zu verbessern, um nützlichere Merkmale für die Spracherkennung zu extrahieren. Überraschenderweise zeigt unsere Arbeit, dass komplexe visuelle Front-Ends nicht erforderlich sind. Anstelle von Ressourcen in eine anspruchsvolle visuelle Front-End zu investieren, stellen wir fest, dass eine lineare visuelle Front-End in Kombination mit einem größeren Conformer-Encoder zu geringerer Latenz, effizienterer Speichernutzung und verbesserten WER-Werten führt. Wir erreichen einen neuen Stand der Technik von 12,8 % WER (Word Error Rate) für visuelle Spracherkennung im TED LRS3-Datensatz, der den Leistungen von rein akustischen Modellen aus vor vier Jahren gleichkommt.