HyperAIHyperAI

Command Palette

Search for a command to run...

Conformer sind alles, was Sie für die visuelle Spracherkennung benötigen.

Oscar Chang Hank Liao Dmitriy Serdyuk Ankit Shah† Olivier Siohan

Zusammenfassung

Visuelle Spracherkennungsmodelle extrahieren visuelle Merkmale auf hierarchische Weise. Auf der niedrigeren Ebene befindet sich eine visuelle Front-End mit einem begrenzten zeitlichen Rezeptorfeld, das die rohen Pixel verarbeitet, die Lippen oder Gesichter darstellen. Auf der höheren Ebene befindet sich ein Encoder, der die durch die Front-End erzeugten Einbettungen über ein großes zeitliches Rezeptorfeld berücksichtigt. Frühere Arbeiten haben sich darauf konzentriert, die visuelle Front-End des Modells zu verbessern, um nützlichere Merkmale für die Spracherkennung zu extrahieren. Überraschenderweise zeigt unsere Arbeit, dass komplexe visuelle Front-Ends nicht erforderlich sind. Anstelle von Ressourcen in eine anspruchsvolle visuelle Front-End zu investieren, stellen wir fest, dass eine lineare visuelle Front-End in Kombination mit einem größeren Conformer-Encoder zu geringerer Latenz, effizienterer Speichernutzung und verbesserten WER-Werten führt. Wir erreichen einen neuen Stand der Technik von 12,8 % WER (Word Error Rate) für visuelle Spracherkennung im TED LRS3-Datensatz, der den Leistungen von rein akustischen Modellen aus vor vier Jahren gleichkommt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp