Conv-TasNet inter-canaux pour l'amélioration de parole multicanal

L’amélioration de la parole dans les configurations multicanal a été réalisée en exploitant les informations spatiales intégrées dans les signaux provenant de plusieurs microphones. Par ailleurs, les réseaux de neurones profonds (DNN) ont récemment connu des avancées significatives dans ce domaine ; toutefois, les recherches visant à concevoir des architectures de réseaux multicanal efficaces, exploitant pleinement les informations spatiales et les relations inter-canaux, restent encore à un stade précoce. Dans cette étude, nous proposons un réseau d’amélioration de la parole en domaine temporel, entièrement end-to-end, capable d’exploiter les relations inter-canaux à chaque couche d’un DNN. La technique proposée repose sur un réseau entièrement convolutif pour la séparation audio en domaine temporel (Conv-TasNet), initialement conçu pour les tâches de séparation de parole. Nous étendons Conv-TasNet à plusieurs variantes capables de traiter des signaux d’entrée multicanal et d’apprendre les relations inter-canaux. À cette fin, nous adaptons les structures encodeur-masque-décodeur du réseau afin qu’elles soient compatibles avec des tenseurs 3D définis selon les dimensions spatiales, les caractéristiques et le temps. En particulier, nous menons une analyse approfondie des structures de convolution et proposons une affectation indépendante des couches de convolution séparable et de convolution 1×1 respectivement aux dimensions des caractéristiques et spatiales. Nous démontrons que l’information inter-canaux enrichie fournie par le réseau proposé joue un rôle essentiel dans la suppression des signaux bruyants provenant de différentes directions. Le Conv-TasNet inter-canaux proposé surpasser les variantes d’état de l’art des réseaux neuronaux multicanal, même avec une taille de paramètres réduite d’un facteur dix. La performance du modèle proposé est évaluée sur le jeu de données CHiME-3, montrant une amélioration notable en termes de SDR, PESQ et STOI.