HyperAIHyperAI
il y a 17 jours

DeepFilterNet : Amélioration en temps réel de la parole motivée par la perception

Hendrik Schröter, Tobias Rosenkranz, Alberto N. Escalante-B., Andreas Maier
DeepFilterNet : Amélioration en temps réel de la parole motivée par la perception
Résumé

Les algorithmes multi-images pour l’amélioration du signal vocal mono-canal sont capables d’exploiter les corrélations à court terme présentes dans le signal vocal. La méthode Deep Filtering (DF) a été proposée afin d’estimer directement un filtre complexe dans le domaine fréquentiel, afin de tirer parti de ces corrélations. Dans ce travail, nous présentons une démonstration en temps réel d’amélioration du signal vocal basée sur DeepFilterNet. L’efficacité de DeepFilterNet repose sur l’exploitation de connaissances spécifiques à la production vocale et à la perception psychoacoustique. Notre modèle parvient à atteindre les performances des meilleures références actuelles en amélioration du signal vocal, tout en réalisant un facteur temps réel de 0,19 sur un processeur portable mono-thread. Le cadre d’implémentation ainsi que les poids pré-entraînés ont été publiés sous une licence open source.