Dense-TSNet : structure à deux étapes à connexion dense pour une amélioration vocale ultra-légère

L’amélioration vocale vise à améliorer la qualité et l’intelligibilité de la parole dans des environnements bruyants. Les avancées récentes se sont concentrées sur les réseaux neuronaux profonds, en particulier sur l’architecture à deux étapes (Two-Stage, TS), afin d’optimiser l’extraction de caractéristiques. Toutefois, la complexité et la taille de ces modèles restent importantes, ce qui limite leur application dans des scénarios à ressources limitées. Concevoir des modèles adaptés aux dispositifs embarqués soulève des défis propres. Les modèles légers étroits rencontrent souvent des goulets d’étranglement en performance en raison de paysages de perte inégaux. En outre, des opérateurs avancés tels que les Transformers ou Mamba manquent parfois de souplesse pratique et d’efficacité opérationnelle comparés aux réseaux de neurones convolutifs (CNN) dans les déploiements réels. Pour relever ces défis, nous proposons Dense-TSNet, un nouveau réseau d’amélioration vocale ultra-léger. Notre approche repose sur une architecture novatrice à deux étapes dense (Dense-TS), qui, par rapport à l’architecture classique à deux étapes, garantit une révision plus robuste de la fonction objectif au cours des phases ultérieures de l’entraînement. Cela conduit à une meilleure performance finale, en surmontant les limitations de convergence précoce du modèle de base. Nous introduisons également le bloc d’attention à vue multiple (Multi-View Gaze Block, MVGB), qui améliore l’extraction de caractéristiques en intégrant des perspectives globales, canalaires et locales via des réseaux de neurones convolutifs (CNN). Nous discutons également de l’impact du choix de la fonction de perte sur la qualité perceptuelle. Dense-TSNet présente des performances prometteuses avec une taille de modèle réduite d’environ 14 000 paramètres, ce qui le rend particulièrement adapté au déploiement dans des environnements à ressources contraintes.