il y a 15 jours

Une architecture efficace encodeur-décodeur avec attention haut-bas pour la séparation de parole

Kai Li, Runxuan Yang, Xiaolin Hu

Résumé

Les réseaux neuronaux profonds ont montré un fort potentiel dans les tâches de séparation de parole. Toutefois, obtenir de bons résultats tout en maintenant une complexité modeste du modèle reste un défi dans les applications réelles. Dans cet article, nous proposons une architecture efficace d’encodeur-décodeur inspirée par la biologie, en imitant l’attention top-down du cerveau, appelée TDANet, qui réduit significativement la complexité du modèle sans compromettre ses performances. L’attention top-down dans TDANet est extraite grâce à un module d’attention globale (GA) et à des couches d’attention locale en cascade (LA). Le module GA prend en entrée des caractéristiques acoustiques à plusieurs échelles afin d’extraire un signal d’attention globale, qui module ensuite les caractéristiques à différentes échelles via des connexions top-down directes. Les couches LA utilisent les caractéristiques des couches adjacentes comme entrée pour extraire un signal d’attention locale, qui est ensuite employé pour moduler les entrées latérales de manière top-down. Sur trois jeux de données standard, TDANet atteint des performances de séparation compétitives par rapport aux méthodes les plus avancées (SOTA) précédentes, tout en offrant une efficacité accrue. Plus précisément, le nombre d’opérations de multiplication-accumulation (MACs) de TDANet n’atteint que 5 % de celui de Sepformer, l’un des modèles SOTA précédents, et le temps d’inférence sur CPU n’est que 10 % de celui de Sepformer. En outre, une version à grande échelle de TDANet a atteint des résultats SOTA sur les trois jeux de données, avec un nombre de MACs restant à seulement 10 % de celui de Sepformer et un temps d’inférence sur CPU réduit à 24 % seulement.