Audio-visuelle Erkennung überlagerter Sprache für die LRS2-Datenmenge

Die automatische Erkennung überlagerter Sprache bleibt bis heute eine hochgradig herausfordernde Aufgabe. Ausgehend von der bimodalen Natur der menschlichen Sprachwahrnehmung untersucht dieser Artikel den Einsatz audio-visueller Technologien für die Erkennung überlagerter Sprache. Drei zentrale Aspekte bei der Konstruktion audio-visueller Spracherkennungssysteme (AVSR) werden behandelt. Erstens werden grundlegende Architekturentwürfe, nämlich end-to-end- und hybride AVSR-Architekturen, analysiert. Zweitens werden gezielt entworfene Modality-Fusionsgates eingesetzt, um audio- und visuelle Merkmale robust zu integrieren. Drittens wird im Gegensatz zu einer traditionellen, aufeinander aufbauenden Architektur mit expliziten Komponenten zur Sprachtrennung und -erkennung ein vereinfachtes und integriertes AVSR-System vorgestellt, das konsistent mittels des lattice-free MMI (LF-MMI)-diskriminativen Kriteriums optimiert wird. Das vorgeschlagene LF-MMI-Zeitverzögerungsneuronales Netzwerk (TDNN)-System erreicht den Stand der Technik für die LRS2-Datenbank. Experimente mit überlagerten Sprachsignalen, die aus der LRS2-Datenbank simuliert wurden, zeigen, dass das vorgeschlagene AVSR-System gegenüber dem rein audio-basierten LF-MMI-DNN-Referenzsystem eine absolute Verbesserung der Wortfehlerquote (WER) um bis zu 29,98 % erzielt und eine Erkennungsleistung erreicht, die einer komplexeren, aufeinander aufbauenden Architektur vergleichbar ist. Zudem werden konsistente Verbesserungen der WER um 4,89 % absolut gegenüber dem Baseline-AVSR-System mit Merkmalsfusion erzielt.