Echtzeit-monaurale Sprachverbesserung mit kurzer diskreter Kosinus-Transformation

Sprachverbesserungsalgorithmen auf der Grundlage tiefer Lernverfahren haben hinsichtlich der Sprachverständlichkeit und der wahrnehmbaren Qualität erheblich zugenommen. Viele Methoden konzentrieren sich darauf, das Amplitudenspektrum zu verbessern, während die Sprache mit dem Phasenspektrum der Überlagerung rekonstruiert wird. Da das saubere Phasenspektrum von großer Bedeutung und schwer vorherzusagen ist, bleiben die Leistungen dieser Ansätze begrenzt. Einige Forscher haben versucht, das Phasenspektrum direkt oder indirekt zu schätzen, doch die Ergebnisse waren nicht zufriedenstellend. Kürzlich haben einige Studien Modelle mit komplexen Werten vorgeschlagen und dabei state-of-the-art-Leistungen erzielt, beispielsweise den Deep Complex Convolutional Recurrent Network (DCCRN). Allerdings weist das Modell eine hohe Rechenkomplexität auf. Um die Komplexität zu reduzieren und die Leistung weiter zu verbessern, schlagen wir in diesem Artikel eine neue Methode vor, die die diskrete Kosinustransformation als Eingabe nutzt und als Deep Cosine Transform Convolutional Recurrent Network (DCTCRN) bezeichnet wird. Experimentelle Ergebnisse zeigen, dass DCTCRN sowohl in objektiven als auch in subjektiven Metriken state-of-the-art-Leistungen erzielt. Im Vergleich zu rauschhaften Überlagerungen steigt der mittlere Meinungsscore (MOS) um 0,46 (von 2,86 auf 3,32) absolut, wobei das vorgeschlagene Modell nur 2,86 Mio. Parameter benötigt.