il y a 17 jours

Réseau à lattice résiduel-dense profond pour l'amélioration de la parole

Mohammad Nikzad, Aaron Nicolson, Yongsheng Gao, Jun Zhou, Kuldip K. Paliwal, Fanhua Shang

Résumé

Les réseaux de neurones convolutifs (CNN) munis de connexions résiduelles (ResNets) et d’unités de convolution dilatée causales ont longtemps constitué le choix privilégié pour les approches d’amélioration de la parole basées sur l’apprentissage profond. Bien que les connexions résiduelles améliorent le flux du gradient pendant l’entraînement, une diminution des caractéristiques provenant des couches superficielles peut survenir en raison de sommes répétées avec les sorties des couches profondes. Une stratégie visant à améliorer la réutilisation des caractéristiques consiste à combiner les ResNets et les CNN à connexion dense (DenseNets). Toutefois, les DenseNets surestiment le nombre de paramètres nécessaires à la réutilisation des caractéristiques. Inspirés par ce constat, nous proposons le réseau à lattice résiduel-dense (RDL-Net), un nouveau CNN dédié à l’amélioration de la parole, qui intègre à la fois des agrégations résiduelles et denses sans surcharger les paramètres dédiés à la réutilisation des caractéristiques. Cette efficacité est assurée par la topologie des blocs RDL, qui limite le nombre de sorties utilisées pour les agrégations denses. Nos études expérimentales approfondies démontrent que les RDL-Nets atteignent un meilleur niveau de performance en amélioration de la parole par rapport aux CNN utilisant uniquement des agrégations résiduelles ou denses. En outre, les RDL-Nets nécessitent significativement moins de paramètres et présentent une charge computationnelle réduite. Enfin, nous montrons que les RDL-Nets surpassent de nombreux états de l’art récents dans le domaine de l’apprentissage profond pour l’amélioration de la parole.