vor 2 Monaten

Richtungsbewusste gemeinsame Anpassung der neuronalen Sprachverbesserung und -erkennung in realen Mehrparteien-Konversationsumgebungen

Yicheng Du; Aditya Arie Nugraha; Kouhei Sekiguchi; Yoshiaki Bando; Mathieu Fontaine; Kazuyoshi Yoshii

Abstract

Dieses Papier beschreibt die Erkennung von rauschbehafteten Sprachsignalen für ein Headset zur erweiterten Realität, das die verbale Kommunikation in realen Mehrparteien-Konversationsumgebungen unterstützt. Ein wichtiger Ansatz, der in simulierten Umgebungen intensiv untersucht wurde, besteht darin, sequentiell Sprachverbesserung und automatische Spracherkennung (ASR) durchzuführen, basierend auf tiefen neuronalen Netzen (DNNs), die in einem überwachten Modus trainiert wurden. In unserem Aufgabenbereich funktioniert jedoch ein vorab trainiertes System aufgrund der Diskrepanz zwischen den Trainings- und Testbedingungen sowie den Kopfbewegungen des Benutzers nicht zufriedenstellend. Um ausschließlich die Äußerungen des Zielredners zu verbessern, verwenden wir eine Strahlformung basierend auf einem DNN-basierten Sprachmaskenschätzer, der die sprachlichen Komponenten in einer kopfrelativen bestimmten Richtung adaptiv extrahieren kann. Wir schlagen eine semi-überwachte Anpassungsmethode vor, die während der Laufzeit sowohl den Maskenschätzer als auch das ASR-Modell gemeinsam aktualisiert, indem es saubere Sprachsignale mit wahren Transkriptionen und rauschbehaftete Sprachsignale mit hochgradig sicheren geschätzten Transkriptionen verwendet. Vergleichsexperimente mit dem standesüblichen Fernspracherkennungssystem zeigen, dass die vorgeschlagene Methode die Leistung der automatischen Spracherkennung signifikant verbessert.