Amélioration en temps réel de la parole monaurale basée sur la transformation en cosinus discrète à court terme

Les algorithmes d’amélioration de la parole basés sur l’apprentissage profond ont connu une amélioration significative en termes d’intelligibilité et de qualité perceptuelle. De nombreuses méthodes se concentrent sur l’amélioration du spectre d’amplitude tout en reconstruisant le signal vocal à l’aide de la phase du mélange. Étant donné que la phase propre (clean phase) est à la fois très importante et difficile à prédire, les performances de ces approches restent limitées. Certains chercheurs ont tenté d’estimer directement ou indirectement le spectre de phase, mais les résultats obtenus ne sont pas satisfaisants. Récemment, plusieurs études ont proposé des modèles à valeurs complexes, atteignant des performances de pointe, comme le réseau récurrent convolutif complexe profond (DCCRN). Toutefois, ces modèles présentent une charge computationnelle importante. Afin de réduire leur complexité tout en améliorant davantage leurs performances, nous proposons dans cet article une nouvelle méthode utilisant la transformation en cosinus discrète comme entrée, nommée réseau récurrent convolutif à transformation en cosinus profond (DCTCRN). Les résultats expérimentaux montrent que DCTCRN atteint des performances de pointe à la fois sur les métriques objectives et subjectives. Par rapport aux mélanges bruités, le score moyen d’opinion (MOS) augmente de 0,46 (passant de 2,86 à 3,32) après traitement par le modèle proposé, avec seulement 2,86 millions de paramètres.