Command Palette
Search for a command to run...
aTENNuate : Amélioration optimisée du discours en temps réel avec des SSM profonds sur l'audio brut
aTENNuate : Amélioration optimisée du discours en temps réel avec des SSM profonds sur l'audio brut
Yan Ru Pei Ritik Shrivastava FNU Sidharth
Résumé
Nous présentons aTENNuate, un autoencodeur d'espace d'état profond configuré pour l'amélioration en ligne efficace du discours brut de manière end-to-end. Les performances du réseau sont principalement évaluées sur le débruitage du discours brut, avec des évaluations supplémentaires sur des tâches telles que la super-résolution et la déquantification. Nous comparons aTENNuate aux ensembles de tests synthétiques VoiceBank + DEMAND et Microsoft DNS1. Le réseau surpassent les modèles de débruitage en temps réel précédents en termes de score PESQ, de nombre de paramètres, de MACs et de latence. Même en tant que modèle traitant le signal sonore brut, il maintient une haute fidélité au signal propre avec un minimum d'artefacts audibles. De plus, le modèle reste performant même lorsque l'entrée bruyante est compressée à 4000 Hz et 4 bits, ce qui suggère des capacités générales d'amélioration du discours dans des environnements à ressources limitées. Essayez-le en installant attenuate via pip.