ROSE: Ein auf Erkennung ausgerichtetes Sprachverbesserungsframework für die Luftverkehrssteuerung unter Verwendung von Multi-Objective Learning

Die Sprachecho-Phänomen in der Luftverkehrssteuerung (ATC) stellt eine spezifische Herausforderung dar, die die Sprachqualität beeinträchtigt und somit die Genauigkeit automatischer Spracherkennung (ASR) negativ beeinflusst. In dieser Arbeit wird ein zeitdomänenbasiertes, auf Erkennung ausgerichtetes Sprachverstärkungsframework (ROSE) vorgestellt, das die Sprachverständlichkeit verbessert und gleichzeitig die ASR-Genauigkeit durch einen auf einem U-Net-Architektur basierenden, convolutionalen Encoder-Decoder-Ansatz erhöht. Das ROSE-Modell fungiert als plug-and-play-Lösung in ATC-Szenarien und erfordert keine zusätzliche Neuausbildung des ASR-Modells. Konkret werden folgende Innovationen umgesetzt: 1) Im U-Net-Architekturrahmen wird ein auf Aufmerksamkeit basierender Skip-Fusion-(ABSF)-Modul eingesetzt, um gemeinsame Merkmale aus den Encodern mittels eines Aufmerksamkeitsmasks zu extrahieren, wodurch die effektive Fusion hierarchischer Merkmale ermöglicht wird. 2) Ein neuartiger Kanal- und Sequenz-Aufmerksamkeits-(CSAtt)-Modul wird entwickelt, um das Modell in zwei parallelen Aufmerksamkeitspfaden auf informative Merkmale zu fokussieren, wodurch die Qualität der Repräsentationen gesteigert und störende Geräusche unterdrückt werden. 3) Auf Basis handgefertigter Merkmale werden ASR-orientierte Optimierungsziele definiert, um die Erkennungsleistung in ATC-Umgebungen durch das Lernen robuster Merkmalsrepräsentationen zu verbessern. Durch die Kombination von SE-orientierten und ASR-orientierten Verlustfunktionen wird ROSE in einer mehrzieligen Lernform implementiert, wobei gemeinsame Merkmalsrepräsentationen für beide Aufgabenoptimierungen optimiert werden. Die experimentellen Ergebnisse zeigen, dass ROSE sowohl für die Sprachverstärkung (SE) als auch für die ASR-Aufgabe signifikant gegenüber anderen state-of-the-art-Methoden übertrifft, wobei alle vorgeschlagenen Verbesserungen durch gezielte Experimente bestätigt wurden. Darüber hinaus ermöglicht der vorgeschlagene Ansatz eine erwünschte Leistungssteigerung auch auf öffentlichen Datensätzen.