HyperAIHyperAI

Command Palette

Search for a command to run...

Estimation explicite des spectres de magnitude et de phase en parallèle pour l’amélioration de la parole de haute qualité

Ye-Xin Lu Yang Ai Zhen-Hua Ling

Résumé

Les informations de phase ont un impact significatif sur la qualité perceptive et l'intelligibilité de la parole. Cependant, les méthodes actuelles d'amélioration de la parole rencontrent des limitations dans l'estimation explicite de la phase en raison de sa nature non structurée et de ses caractéristiques d'enroulement, ce qui entraîne une bouteille d'étranglement dans la qualité de la parole améliorée. Pour surmonter cette difficulté, nous proposons dans cet article MP-SENet, un nouveau réseau d'amélioration de la parole qui améliore explicitement les spectres de magnitude et de phase en parallèle. Le MP-SENet proposé comprend une architecture encodeur-décodeur intégrant des Transformers. L'encodeur vise à coder les spectres de magnitude et de phase déformés en entrée en représentations temporelles-fréquentielles, qui sont ensuite alimentées dans des Transformers temporels-fréquentiels pour capturer alternativement les dépendances temporelles et fréquentielles. Le décodeur est composé d'un décodeur de masque de magnitude et d'un décodeur de phase, améliorant directement les spectres de magnitude et de phase enroulée grâce à l'intégration d'une architecture de masquage de magnitude et d'une architecture d'estimation parallèle de phase, respectivement. Des fonctions de perte multiniveaux explicitement définies sur les spectres de magnitude, les spectres de phase enroulée et les spectres complexes à court terme sont adoptées pour entraîner conjointement le modèle MP-SENet. Un discriminant métrique est également utilisé pour compenser la corrélation incomplète entre ces pertes et la perception auditive humaine. Les résultats expérimentaux montrent que notre MP-SENet proposé atteint des performances au niveau de l'état de l'art dans plusieurs tâches d'amélioration de la parole, notamment le débruitage vocal, le déréverbération et l'extension du bande passante. Par rapport aux méthodes existantes d'amélioration consciente de la phase, il atténue davantage l'effet compensatoire entre la magnitude et la phase grâce à l'estimation explicite de la phase, améliorant ainsi la qualité perceptive du discours amélioré.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp