HyperAIHyperAI

Command Palette

Search for a command to run...

Recurrent Neural Network Transducer für audio-visuelle Spracherkennung

Takaki Makino Hank Liao Yannis Assael Brendan Shillingford Basilio Garcia Otavio Braga Olivier Siohan

Zusammenfassung

Diese Arbeit stellt ein großskaliges audio-visuelles Spracherkennungssystem auf Basis einer rekurrenten neuronalen Transduktionsarchitektur (RNN-T) vor. Zur Unterstützung der Entwicklung eines solchen Systems haben wir eine große audio-visuelle (A/V) Datensammlung aus segmentierten Äußerungen erstellt, die aus öffentlichen YouTube-Videos extrahiert wurden, was zu insgesamt 31.000 Stunden audio-visueller Trainingsinhalte führt. Die Leistung eines rein audio-basierten, rein visuellen sowie eines audio-visuellen Systems wird an zwei Datensätzen mit großem Vokabular evaluiert: einem Satz aus Äußerungssegmenten öffentlicher YouTube-Videos namens YTDEV18 sowie dem öffentlich verfügbaren LRS3-TED-Datensatz. Um den Beitrag der visuellen Modality hervorzuheben, haben wir zudem die Leistung unseres Systems auf dem YTDEV18-Datensatz evaluiert, der künstlich mit Hintergrundgeräuschen und überlappendem Sprachsignal verunreinigt wurde. Soweit uns bekannt ist, verbessert unser System die bisher beste Leistung auf dem LRS3-TED-Datensatz signifikant.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp