Transfert d’attention multi-vue pour une amélioration efficace de la parole

Les modèles récents d'apprentissage profond ont atteint des performances élevées dans le domaine du renforcement du signal vocal ; toutefois, il reste difficile d'obtenir un modèle rapide et à faible complexité sans dégradation significative de performance. Les études antérieures sur la distillation de connaissances appliquées au renforcement vocal n'ont pas pu résoudre ce problème, car leurs méthodes de distillation des sorties ne s'adaptent pas parfaitement à la tâche de renforcement vocal dans certains aspects. Dans cette étude, nous proposons une méthode de transfert d'attention multi-vue (MV-AT), une approche fondée sur les caractéristiques, afin d'obtenir des modèles efficaces de renforcement vocal dans le domaine temporel. Basée sur un modèle d'extraction de caractéristiques multi-vue, la MV-AT transfère les connaissances multi-vue du modèle enseignant vers le modèle apprenant sans ajouter de paramètres supplémentaires. Les résultats expérimentaux montrent que la méthode proposée améliore de manière cohérente les performances des modèles apprenants de différentes tailles sur les jeux de données Valentini et Deep Noise Suppression (DNS). Le modèle léger MANNER-S-8.1GF, obtenu grâce à notre méthode, atteint respectivement 15,4 fois et 4,71 fois moins de paramètres et d'opérations à virgule flottante (FLOPs) par rapport au modèle de référence, tout en conservant une performance similaire.