Réseau de séparation de parole par raffinement progressif via une encodage à haute précision dans un domaine latente d'ordre supérieur

Le cœur de la séparation de paroles mono-canal réside dans la manière d’encoder le mélange de signaux dans un espace d’encodage latente tel que les signaux provenant de locuteurs différents puissent être séparés avec précision. Les méthodes existantes pour la séparation de paroles transforment soit les signaux vocaux dans le domaine fréquentiel afin d’effectuer la séparation, soit cherchent à apprendre un espace d’encodage séparable en construisant un domaine latente basé sur des filtres convolutifs. Bien que les méthodes de ce dernier type, qui apprennent un espace d’encodage, aient permis des améliorations significatives dans la séparation de paroles, nous soutenons que l’espace latente défini par un seul domaine latente ne suffit pas à garantir un espace d’encodage pleinement séparable pour la séparation de paroles. Dans ce travail, nous proposons le Réseau de Séparation de Paroles par Réfinement Progressif (SRSSN), qui suit un cadre de séparation de grossier à fin. Il apprend d’abord un domaine latente d’ordre 1 afin de définir un espace d’encodage, permettant ainsi une séparation approximative durant la phase initiale. Ensuite, le SRSSN proposé apprend un nouveau domaine latente le long de chaque fonction de base du domaine latente existant, afin d’obtenir un domaine latente d’ordre supérieur lors de la phase de révision. Cette approche permet à notre modèle de réaliser une séparation révisée, conduisant à une séparation plus précise des paroles. Nous démontrons l’efficacité de notre SRSSN à travers des expériences étendues, incluant la séparation de paroles dans un cadre propre (sans bruit) sur les jeux de données WSJ0-2/3mix, ainsi que dans des conditions bruyeuses ou réverbérantes sur les jeux de données WHAM!/WHAMR!. En outre, nous menons également des expériences de reconnaissance vocale sur les signaux vocaux séparés par notre modèle, afin d’évaluer indirectement les performances de la séparation de paroles.