HyperAIHyperAI
il y a 2 mois

DeFT-AN : Réseau attentif dense en fréquence-temps pour l’amélioration du discours multicanal

Dongheon Lee; Jung-Woo Choi
DeFT-AN : Réseau attentif dense en fréquence-temps pour l’amélioration du discours multicanal
Résumé

Dans cette étude, nous proposons un réseau dense fréquence-temps attentif (DeFT-AN) pour l'amélioration du discours multicanal. Le DeFT-AN est un réseau d'estimation de masque qui prédit un motif de masquage spectral complexe pour supprimer le bruit et les réverberations intégrés dans la transformée de Fourier à court terme (STFT) d'un signal d'entrée. Le réseau d'estimation de masque proposé intègre trois types différents de blocs pour agréger les informations dans les dimensions spatiale, spectrale et temporelle. Il utilise une transformée spectrale avec un réseau de propagation avant modifié et une conformère temporelle avec des convolutions dilatées séquentielles. L'utilisation de blocs denses et de transformateurs dédiés aux trois caractéristiques différentes des signaux audio permet une amélioration plus complète dans des environnements bruyants et réverbérants. Les performances remarquables du DeFT-AN par rapport aux modèles multicanal de pointe sont démontrées sur deux ensembles de données populaires bruyants et réverbérants en termes de diverses métriques de qualité et d'intelligibilité du discours.

DeFT-AN : Réseau attentif dense en fréquence-temps pour l’amélioration du discours multicanal | Articles de recherche récents | HyperAI