Zur Sprachtrennung im Vor-Cocktail-Party-Problem mit TasTas

In dieser Arbeit schlagen wir vor, TasTas \cite{shi2020speech} für den end-to-end-Ansatz zur monauralen Sprachtrennung im Kontext des sogenannten „pre-cocktail party problems“ einzusetzen. Unsere Experimente an der öffentlichen WSJ0-5mix-Datensammlung erbringen eine Verbesserung der SDR um 10,41 dB. Falls während des Trainings eine Online-Voice-Data-Remixing-Augmentation \cite{zeghidour2020wavesplit} verwendet wird, lässt sich eine SDR-Verbesserung von 11,14 dB erreichen. Wir haben unsere Nachimplementierung von DPRNN-TasNet unter https://github.com/ShiZiqiang/dual-path-RNNs-DPRNNs-based-speech-separation veröffentlicht. Unser TasTas basiert auf dieser Implementierung von DPRNN-TasNet, wodurch die Ergebnisse dieser Arbeit problemlos reproduzierbar sind.