Perzeptuelle Kontraststreckung des Zielmerkmals für Sprachverbesserung

Die Leistung von Sprachverbesserungsverfahren (Speech Enhancement, SE) hat sich erheblich durch den Einsatz von Deep-Learning-Modellen als Grundfunktion verbessert. In diesem Beitrag stellen wir einen perceptiven Kontrastverstärkungsansatz (Perceptual Contrast Stretching, PCS) vor, um die SE-Leistung weiter zu steigern. Der PCS basiert auf der kritischen Band-Wichtungsfunktion und wird verwendet, um die Zielwerte des SE-Modells zu modifizieren. Insbesondere wird der Kontrast der Zielmerkmale auf der Grundlage ihrer perceptuellen Bedeutung gestreckt, was die insgesamt verbesserte SE-Leistung ermöglicht. Im Gegensatz zu nachgeschalteten Verfahren, die in der Nachbearbeitung implementiert werden, bewahrt die Integration von PCS in die Trainingsphase die Leistung und reduziert die Online-Berechnungskomplexität. Insbesondere lässt sich PCS mit verschiedenen SE-Modellarchitekturen und Trainingskriterien kombinieren. Darüber hinaus beeinflusst PCS weder die Kausalität noch die Konvergenz des Trainingsprozesses des SE-Modells. Experimentelle Ergebnisse auf dem VoiceBank-DEMAND-Datensatz zeigen, dass die vorgeschlagene Methode sowohl bei kausalen (PESQ-Score = 3,07) als auch bei nicht-kausalen (PESQ-Score = 3,35) SE-Aufgaben eine state-of-the-art-Leistung erzielt.