End-to-end Audiovisuelle Spracherkennung mit Conformern

In dieser Arbeit stellen wir ein hybrides CTC/Aufmerksamkeitsmodell vor, das auf einem ResNet-18 und einem konvolutionsverstärkten Transformer (Conformer) basiert und in einer end-to-end Weise trainiert werden kann. Insbesondere lernen die Audio- und Videoencoder direkt aus rohen Pixeln und Audio-Waveformen Features zu extrahieren, die dann den Conformern zugeführt werden. Die Fusion erfolgt anschließend über einen Mehrschichtperzeptron (MLP). Das Modell lernt, Zeichen unter Verwendung einer Kombination aus CTC und einem Aufmerksamkeitsmechanismus zu erkennen. Wir zeigen, dass das end-to-end Training, anstelle der in der Literatur üblichen vorgeberechneten visuellen Features, die Verwendung eines Conformers anstelle eines rekurrenten Netzes sowie die Anwendung eines transformer-basierten Sprachmodells die Leistung unseres Modells erheblich verbessert. Wir präsentieren Ergebnisse auf den größten öffentlich verfügbaren Datensätzen für satzorientierte Spracherkennung, Lip Reading Sentences 2 (LRS2) und Lip Reading Sentences 3 (LRS3). Die Ergebnisse belegen, dass unsere vorgeschlagenen Modelle in rein akustischen, rein visuellen sowie multimodalen Experimenten den Stand der Technik um einen großen Vorsprung erhöhen.