Estimation explicite des spectres de magnitude et de phase en parallèle pour l’amélioration de la parole de haute qualité

Les informations de phase ont un impact significatif sur la qualité perceptive et l'intelligibilité de la parole. Cependant, les méthodes actuelles d'amélioration de la parole rencontrent des limitations dans l'estimation explicite de la phase en raison de sa nature non structurée et de ses caractéristiques d'enroulement, ce qui entraîne une bouteille d'étranglement dans la qualité de la parole améliorée. Pour surmonter cette difficulté, nous proposons dans cet article MP-SENet, un nouveau réseau d'amélioration de la parole qui améliore explicitement les spectres de magnitude et de phase en parallèle. Le MP-SENet proposé comprend une architecture encodeur-décodeur intégrant des Transformers. L'encodeur vise à coder les spectres de magnitude et de phase déformés en entrée en représentations temporelles-fréquentielles, qui sont ensuite alimentées dans des Transformers temporels-fréquentiels pour capturer alternativement les dépendances temporelles et fréquentielles. Le décodeur est composé d'un décodeur de masque de magnitude et d'un décodeur de phase, améliorant directement les spectres de magnitude et de phase enroulée grâce à l'intégration d'une architecture de masquage de magnitude et d'une architecture d'estimation parallèle de phase, respectivement. Des fonctions de perte multiniveaux explicitement définies sur les spectres de magnitude, les spectres de phase enroulée et les spectres complexes à court terme sont adoptées pour entraîner conjointement le modèle MP-SENet. Un discriminant métrique est également utilisé pour compenser la corrélation incomplète entre ces pertes et la perception auditive humaine. Les résultats expérimentaux montrent que notre MP-SENet proposé atteint des performances au niveau de l'état de l'art dans plusieurs tâches d'amélioration de la parole, notamment le débruitage vocal, le déréverbération et l'extension du bande passante. Par rapport aux méthodes existantes d'amélioration consciente de la phase, il atténue davantage l'effet compensatoire entre la magnitude et la phase grâce à l'estimation explicite de la phase, améliorant ainsi la qualité perceptive du discours amélioré.