vor einem Monat

End-to-End Audiovisuelle Spracherkennung

Stavros Petridis; Themos Stafylakis; Pingchuan Ma; Feipeng Cai; Georgios Tzimiropoulos; Maja Pantic

Abstract

In letzter Zeit wurden mehrere end-to-end Deep-Learning-Ansätze vorgestellt, die entweder audio- oder visuelle Merkmale aus Eingangsbildern oder Audiosignalen extrahieren und Spracherkennung durchführen. Die Forschung zu end-to-end audiovisuellen Modellen ist jedoch sehr begrenzt. In dieser Arbeit präsentieren wir ein end-to-end audiovisuelles Modell, das auf Residual-Netzwerken und bidirektionalen Gatterrekurrenten Einheiten (BGRUs) basiert. Nach bestem Wissen handelt es sich dabei um das erste audiovisuelle Fusionsmodell, das gleichzeitig lernt, Merkmale direkt aus den Bildpixeln und Audio-Waveformen zu extrahieren und kontextbezogene Worterkennung auf einem großen öffentlich zugänglichen Datensatz (LRW) durchführt. Das Modell besteht aus zwei Strömen, jeweils für eine Modalität, die Merkmale direkt aus Mundregionen und rohen Waveformen extrahieren. Die zeitlichen Dynamiken in jedem Strom/Modus werden durch ein zweischichtiges BGRU modelliert, und die Fusion der verschiedenen Ströme/Modalitäten erfolgt über ein weiteres zweischichtiges BGRU. Unter sauberen Audiodingbedingungen und bei niedrigen Rauschpegeln wird eine leichte Verbesserung der Klassifikationsrate im Vergleich zu einem rein audio-basierten end-to-end-Modell und einem MFCC-basierten Modell gemeldet. Bei hohen Rauschpegeln übertrifft das end-to-end audiovisuelle Modell beide rein audio-basierten Modelle erheblich.