Wavesplit : Séparation vocale end-to-end par regroupement par locuteur

Nous présentons Wavesplit, un système de séparation de sources end-to-end. À partir d’un mélange unique, le modèle infère une représentation pour chaque source, puis estime le signal de chaque source à partir des représentations ainsi obtenues. Le modèle est entraîné pour effectuer simultanément les deux tâches à partir de la forme d’onde brute. Wavesplit obtient un ensemble de représentations de sources via un regroupement (clustering), ce qui permet de résoudre le problème fondamental de permutation lié à la séparation. Pour la séparation de paroles, nos représentations de locuteurs à l’échelle de la séquence offrent une séparation plus robuste des enregistrements longs et difficiles par rapport aux approches antérieures. Wavesplit redéfinit l’état de l’art sur des mélanges purs de deux ou trois locuteurs (WSJ0-2/3mix), ainsi que dans des conditions bruitées et réverbérées (WHAM/WHAMR). Nous établissons également une nouvelle référence sur le jeu de données récent LibriMix. Enfin, nous démontrons que Wavesplit est également applicable à d’autres domaines, en séparant les fréquences cardiaques fœtales et maternelles à partir d’un unique électrocardiogramme abdominal.