HyperAIHyperAI

Command Palette

Search for a command to run...

Audio-visuelle Erkennung überlagerter Sprache für die LRS2-Datenmenge

Jianwei Yu Shi-Xiong Zhang Jian Wu Shahram Ghorbani Bo Wu Shiyin Kang Shansong Liu Xunying Liu Helen Meng Dong Yu

Zusammenfassung

Die automatische Erkennung überlagerter Sprache bleibt bis heute eine hochgradig herausfordernde Aufgabe. Ausgehend von der bimodalen Natur der menschlichen Sprachwahrnehmung untersucht dieser Artikel den Einsatz audio-visueller Technologien für die Erkennung überlagerter Sprache. Drei zentrale Aspekte bei der Konstruktion audio-visueller Spracherkennungssysteme (AVSR) werden behandelt. Erstens werden grundlegende Architekturentwürfe, nämlich end-to-end- und hybride AVSR-Architekturen, analysiert. Zweitens werden gezielt entworfene Modality-Fusionsgates eingesetzt, um audio- und visuelle Merkmale robust zu integrieren. Drittens wird im Gegensatz zu einer traditionellen, aufeinander aufbauenden Architektur mit expliziten Komponenten zur Sprachtrennung und -erkennung ein vereinfachtes und integriertes AVSR-System vorgestellt, das konsistent mittels des lattice-free MMI (LF-MMI)-diskriminativen Kriteriums optimiert wird. Das vorgeschlagene LF-MMI-Zeitverzögerungsneuronales Netzwerk (TDNN)-System erreicht den Stand der Technik für die LRS2-Datenbank. Experimente mit überlagerten Sprachsignalen, die aus der LRS2-Datenbank simuliert wurden, zeigen, dass das vorgeschlagene AVSR-System gegenüber dem rein audio-basierten LF-MMI-DNN-Referenzsystem eine absolute Verbesserung der Wortfehlerquote (WER) um bis zu 29,98 % erzielt und eine Erkennungsleistung erreicht, die einer komplexeren, aufeinander aufbauenden Architektur vergleichbar ist. Zudem werden konsistente Verbesserungen der WER um 4,89 % absolut gegenüber dem Baseline-AVSR-System mit Merkmalsfusion erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Audio-visuelle Erkennung überlagerter Sprache für die LRS2-Datenmenge | Paper | HyperAI