Command Palette
Search for a command to run...
Conformer sind alles, was Sie für die visuelle Spracherkennung benötigen.
Conformer sind alles, was Sie für die visuelle Spracherkennung benötigen.
Oscar Chang Hank Liao Dmitriy Serdyuk Ankit Shah† Olivier Siohan
Zusammenfassung
Visuelle Spracherkennungsmodelle extrahieren visuelle Merkmale auf hierarchische Weise. Auf der niedrigeren Ebene befindet sich eine visuelle Front-End mit einem begrenzten zeitlichen Rezeptorfeld, das die rohen Pixel verarbeitet, die Lippen oder Gesichter darstellen. Auf der höheren Ebene befindet sich ein Encoder, der die durch die Front-End erzeugten Einbettungen über ein großes zeitliches Rezeptorfeld berücksichtigt. Frühere Arbeiten haben sich darauf konzentriert, die visuelle Front-End des Modells zu verbessern, um nützlichere Merkmale für die Spracherkennung zu extrahieren. Überraschenderweise zeigt unsere Arbeit, dass komplexe visuelle Front-Ends nicht erforderlich sind. Anstelle von Ressourcen in eine anspruchsvolle visuelle Front-End zu investieren, stellen wir fest, dass eine lineare visuelle Front-End in Kombination mit einem größeren Conformer-Encoder zu geringerer Latenz, effizienterer Speichernutzung und verbesserten WER-Werten führt. Wir erreichen einen neuen Stand der Technik von 12,8 % WER (Word Error Rate) für visuelle Spracherkennung im TED LRS3-Datensatz, der den Leistungen von rein akustischen Modellen aus vor vier Jahren gleichkommt.