Vers la séparation de parole dans le problème pré-« cocktail party » avec TasTas

Dans cette note, nous proposons d'utiliser TasTas \cite{shi2020speech} dans une approche end-to-end pour la séparation de paroles monophoniques dans le cadre du problème pré-cocktail party. Nos expériences menées sur le corpus public WSJ0-5mix ont permis d'obtenir une amélioration de 10,41 dB en SDR. Lorsqu'une augmentation par remixage en temps réel des données vocales est intégrée durant l'entraînement \cite{zeghidour2020wavesplit}, une amélioration de 11,14 dB en SDR peut être atteinte. Nous avons rendu public notre réimplémentation de DPRNN-TasNet à l'adresse suivante : https://github.com/ShiZiqiang/dual-path-RNNs-DPRNNs-based-speech-separation. Notre implémentation de TasTas repose sur cette version de DPRNN-TasNet, et il est estimé que les résultats présentés dans cet article peuvent être facilement reproduits.