HyperAIHyperAI

Command Palette

Search for a command to run...

Une architecture efficace encodeur-décodeur avec attention haut-bas pour la séparation de parole

Kai Li Runxuan Yang Xiaolin Hu

Résumé

Les réseaux neuronaux profonds ont montré un fort potentiel dans les tâches de séparation de parole. Toutefois, obtenir de bons résultats tout en maintenant une complexité modeste du modèle reste un défi dans les applications réelles. Dans cet article, nous proposons une architecture efficace d’encodeur-décodeur inspirée par la biologie, en imitant l’attention top-down du cerveau, appelée TDANet, qui réduit significativement la complexité du modèle sans compromettre ses performances. L’attention top-down dans TDANet est extraite grâce à un module d’attention globale (GA) et à des couches d’attention locale en cascade (LA). Le module GA prend en entrée des caractéristiques acoustiques à plusieurs échelles afin d’extraire un signal d’attention globale, qui module ensuite les caractéristiques à différentes échelles via des connexions top-down directes. Les couches LA utilisent les caractéristiques des couches adjacentes comme entrée pour extraire un signal d’attention locale, qui est ensuite employé pour moduler les entrées latérales de manière top-down. Sur trois jeux de données standard, TDANet atteint des performances de séparation compétitives par rapport aux méthodes les plus avancées (SOTA) précédentes, tout en offrant une efficacité accrue. Plus précisément, le nombre d’opérations de multiplication-accumulation (MACs) de TDANet n’atteint que 5 % de celui de Sepformer, l’un des modèles SOTA précédents, et le temps d’inférence sur CPU n’est que 10 % de celui de Sepformer. En outre, une version à grande échelle de TDANet a atteint des résultats SOTA sur les trois jeux de données, avec un nombre de MACs restant à seulement 10 % de celui de Sepformer et un temps d’inférence sur CPU réduit à 24 % seulement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp