HyperAIHyperAI
il y a 3 mois

PrimeK-Net : Apprentissage spectrale multi-échelle par réseaux de neurones convolutifs à noyau premier par groupe pour l’amélioration de parole à canal unique

Zizhen Lin, Junyu Wang, Ruili Li, Fei Shen, Xi Xuan
PrimeK-Net : Apprentissage spectrale multi-échelle par réseaux de neurones convolutifs à noyau premier par groupe pour l’amélioration de parole à canal unique
Résumé

L’amélioration mono-canal du discours constitue un problème mal posé difficile, axé sur l’estimation du signal vocal propre à partir de signaux dégradés. Les études existantes ont démontré les performances compétitives de la combinaison de réseaux de neurones convolutifs (CNN) et de Transformers dans les tâches d’amélioration du discours. Toutefois, les cadres existants n’ont pas suffisamment abordé l’efficacité computationnelle, et ont négligé la distribution naturelle à plusieurs échelles du spectre. En outre, le potentiel des CNN dans l’amélioration du discours n’a pas encore été pleinement exploité. Pour répondre à ces défis, cette étude propose un bloc dense dilaté séparable profond (DSDDB) et un module d’attention canal feedforward à noyaux premiers groupés (GPFCA). Plus précisément, le DSDDB introduit une efficacité accrue en termes de paramètres et de complexité computationnelle dans les parties Encodeur/Décodeur des cadres existants. Le module GPFCA remplace la position du Conformer, extrayant des caractéristiques temporelles et fréquentielles profondes du spectre avec une complexité linéaire. Le GPFCA exploite le réseau feedforward à noyaux premiers groupés (GPFN) proposé afin d’intégrer des champs réceptifs à longue, moyenne et courte portée à plusieurs granularités, tout en tirant parti des propriétés des nombres premiers pour éviter les effets de chevauchement périodique. Les résultats expérimentaux montrent que PrimeK-Net, proposé dans cette étude, atteint des performances de pointe (SOTA) sur le jeu de données VoiceBank+Demand, obtenant un score PESQ de 3,61 avec seulement 1,41 million de paramètres.