il y a 17 jours

Attention par canal Dense U-Net pour l'amélioration multicanale de la parole

Bahareh Tolooshams, Ritwik Giri, Andrew H. Song, Umut Isik, Arvindh Krishnaswamy

Résumé

L’apprentissage profond supervisé a récemment suscité un intérêt croissant pour l’amélioration de la parole. Les méthodes d’apprentissage profond les plus avancées accomplissent cette tâche en apprenant un masque rationnel ou binaire, appliqué au mélange dans le domaine temporel-fréquentiel afin de produire la parole nette. Bien que ces méthodes affichent de très bons résultats dans le cadre mono-canal, leur performance se dégrade dans le cadre multi-canaux, principalement parce que la majorité d’entre elles a) ne tirent pas pleinement parti de l’information spatiale disponible, et b) traitent encore l’architecture profonde comme une boîte noire, ce qui peut être peu adapté au traitement audio multi-canaux. Ce papier vise à remédier à ces limites : a) en introduisant un masquage rationnel complexe au lieu d’un masquage appliqué uniquement au module du spectrogramme, et plus important encore, b) en intégrant un mécanisme d’attention par canal à l’intérieur de l’architecture profonde, afin de mimétiser le beamforming. Nous proposons le Channel-Attention Dense U-Net, dans lequel l’unité d’attention par canal est appliquée de manière récursive sur les cartes de caractéristiques à chaque couche du réseau, permettant ainsi au réseau de réaliser un beamforming non linéaire. Nous démontrons la supériorité de ce réseau par rapport aux approches de pointe sur le jeu de données CHiME-3.