HyperAIHyperAI
vor 10 Tagen

Recurrent Neural Network Transducer für audio-visuelle Spracherkennung

Takaki Makino, Hank Liao, Yannis Assael, Brendan Shillingford, Basilio Garcia, Otavio Braga, Olivier Siohan
Recurrent Neural Network Transducer für audio-visuelle Spracherkennung
Abstract

Diese Arbeit stellt ein großskaliges audio-visuelles Spracherkennungssystem auf Basis einer rekurrenten neuronalen Transduktionsarchitektur (RNN-T) vor. Zur Unterstützung der Entwicklung eines solchen Systems haben wir eine große audio-visuelle (A/V) Datensammlung aus segmentierten Äußerungen erstellt, die aus öffentlichen YouTube-Videos extrahiert wurden, was zu insgesamt 31.000 Stunden audio-visueller Trainingsinhalte führt. Die Leistung eines rein audio-basierten, rein visuellen sowie eines audio-visuellen Systems wird an zwei Datensätzen mit großem Vokabular evaluiert: einem Satz aus Äußerungssegmenten öffentlicher YouTube-Videos namens YTDEV18 sowie dem öffentlich verfügbaren LRS3-TED-Datensatz. Um den Beitrag der visuellen Modality hervorzuheben, haben wir zudem die Leistung unseres Systems auf dem YTDEV18-Datensatz evaluiert, der künstlich mit Hintergrundgeräuschen und überlappendem Sprachsignal verunreinigt wurde. Soweit uns bekannt ist, verbessert unser System die bisher beste Leistung auf dem LRS3-TED-Datensatz signifikant.