aTENNuate : Amélioration optimisée du discours en temps réel avec des SSM profonds sur l'audio brut

Nous présentons aTENNuate, un autoencodeur d'espace d'état profond configuré pour l'amélioration en ligne efficace du discours brut de manière end-to-end. Les performances du réseau sont principalement évaluées sur le débruitage du discours brut, avec des évaluations supplémentaires sur des tâches telles que la super-résolution et la déquantification. Nous comparons aTENNuate aux ensembles de tests synthétiques VoiceBank + DEMAND et Microsoft DNS1. Le réseau surpassent les modèles de débruitage en temps réel précédents en termes de score PESQ, de nombre de paramètres, de MACs et de latence. Même en tant que modèle traitant le signal sonore brut, il maintient une haute fidélité au signal propre avec un minimum d'artefacts audibles. De plus, le modèle reste performant même lorsque l'entrée bruyante est compressée à 4000 Hz et 4 bits, ce qui suggère des capacités générales d'amélioration du discours dans des environnements à ressources limitées. Essayez-le en installant attenuate via pip.