HyperAIHyperAI

Command Palette

Search for a command to run...

aTENNuate : Amélioration optimisée du discours en temps réel avec des SSM profonds sur l'audio brut

Yan Ru Pei Ritik Shrivastava FNU Sidharth

Résumé

Nous présentons aTENNuate, un autoencodeur d'espace d'état profond configuré pour l'amélioration en ligne efficace du discours brut de manière end-to-end. Les performances du réseau sont principalement évaluées sur le débruitage du discours brut, avec des évaluations supplémentaires sur des tâches telles que la super-résolution et la déquantification. Nous comparons aTENNuate aux ensembles de tests synthétiques VoiceBank + DEMAND et Microsoft DNS1. Le réseau surpassent les modèles de débruitage en temps réel précédents en termes de score PESQ, de nombre de paramètres, de MACs et de latence. Même en tant que modèle traitant le signal sonore brut, il maintient une haute fidélité au signal propre avec un minimum d'artefacts audibles. De plus, le modèle reste performant même lorsque l'entrée bruyante est compressée à 4000 Hz et 4 bits, ce qui suggère des capacités générales d'amélioration du discours dans des environnements à ressources limitées. Essayez-le en installant attenuate via pip.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp