HyperAIHyperAI

Command Palette

Search for a command to run...

Großmaßstäbliche visuelle Spracherkennung

Zusammenfassung

Diese Arbeit präsentiert eine skalierbare Lösung für die offene Vokabular-Visuelle Spracherkennung. Um dies zu erreichen, haben wir den größten existierenden Datensatz für visuelle Spracherkennung erstellt, der aus Text-Videoschneiden-Paaren von sprechenden Gesichtern besteht (3.886 Stunden Video). Parallel dazu haben wir ein integriertes Lippenlesesystem konzipiert und trainiert, das aus einer Videobearbeitungs Pipeline besteht, die rohes Video in stabile Videos von Lippen und Phonemsequenzen abbildet, einem skalierbaren tiefen neuronalen Netzwerk, das die Lippenvideos auf Sequenzen von Phonemverteilungen abbildet, sowie einem sprachtechnischen Decoder auf Produktionsniveau, der Sequenzen von Wörtern ausgibt. Das vorgeschlagene System erreicht eine Wortfehlerquote (WER) von 40,9 %, wie anhand eines separaten Testsets gemessen. Im Vergleich dazu erreichen professionelle Lippenleser bei Zugriff auf zusätzliche Arten kontextueller Informationen entweder 86,4 % oder 92,9 % WER auf demselben Datensatz. Unser Ansatz verbessert sich signifikant gegenüber anderen Lippenlesmethoden, einschließlich Varianten von LipNet und Watch, Attend and Spell (WAS), die jeweils nur 89,8 % und 76,8 % WER erzielen können.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp