Command Palette
Search for a command to run...
Audio-visuelle Erkennung überlagerter Sprache für die LRS2-Datenmenge
Audio-visuelle Erkennung überlagerter Sprache für die LRS2-Datenmenge
Jianwei Yu Shi-Xiong Zhang Jian Wu Shahram Ghorbani Bo Wu Shiyin Kang Shansong Liu Xunying Liu Helen Meng Dong Yu
Zusammenfassung
Die automatische Erkennung überlagerter Sprache bleibt bis heute eine hochgradig herausfordernde Aufgabe. Ausgehend von der bimodalen Natur der menschlichen Sprachwahrnehmung untersucht dieser Artikel den Einsatz audio-visueller Technologien für die Erkennung überlagerter Sprache. Drei zentrale Aspekte bei der Konstruktion audio-visueller Spracherkennungssysteme (AVSR) werden behandelt. Erstens werden grundlegende Architekturentwürfe, nämlich end-to-end- und hybride AVSR-Architekturen, analysiert. Zweitens werden gezielt entworfene Modality-Fusionsgates eingesetzt, um audio- und visuelle Merkmale robust zu integrieren. Drittens wird im Gegensatz zu einer traditionellen, aufeinander aufbauenden Architektur mit expliziten Komponenten zur Sprachtrennung und -erkennung ein vereinfachtes und integriertes AVSR-System vorgestellt, das konsistent mittels des lattice-free MMI (LF-MMI)-diskriminativen Kriteriums optimiert wird. Das vorgeschlagene LF-MMI-Zeitverzögerungsneuronales Netzwerk (TDNN)-System erreicht den Stand der Technik für die LRS2-Datenbank. Experimente mit überlagerten Sprachsignalen, die aus der LRS2-Datenbank simuliert wurden, zeigen, dass das vorgeschlagene AVSR-System gegenüber dem rein audio-basierten LF-MMI-DNN-Referenzsystem eine absolute Verbesserung der Wortfehlerquote (WER) um bis zu 29,98 % erzielt und eine Erkennungsleistung erreicht, die einer komplexeren, aufeinander aufbauenden Architektur vergleichbar ist. Zudem werden konsistente Verbesserungen der WER um 4,89 % absolut gegenüber dem Baseline-AVSR-System mit Merkmalsfusion erzielt.