Dénouaison vocal dans le domaine temporel avec une attention auto-associative

Dans ce travail, nous présentons CleanUNet, un modèle causal de suppression de bruit vocal basé sur le signal bruité brut (waveform). Le modèle proposé repose sur une architecture encodeur-décodeur associée à plusieurs blocs d'attention auto-référentielle afin d'améliorer les représentations au niveau du goulot d'étranglement, ce qui est crucial pour obtenir de bons résultats. Le modèle est optimisé à l'aide d'un ensemble de fonctions de perte définies tant sur le waveform que sur des spectrogrammes à multiple résolution. La méthode proposée surpasse les modèles de pointe actuels en termes de qualité du signal vocal débruité, selon diverses métriques objectives et subjectives. Nous mettons à disposition notre code et nos modèles à l'adresse suivante : https://github.com/nvidia/cleanunet.