HyperAIHyperAI

Command Palette

Search for a command to run...

Zur Sprachtrennung im Vor-Cocktail-Party-Problem mit TasTas

Ziqiang Shi Jiqing Han

Zusammenfassung

In dieser Arbeit schlagen wir vor, TasTas \cite{shi2020speech} für den end-to-end-Ansatz zur monauralen Sprachtrennung im Kontext des sogenannten „pre-cocktail party problems“ einzusetzen. Unsere Experimente an der öffentlichen WSJ0-5mix-Datensammlung erbringen eine Verbesserung der SDR um 10,41 dB. Falls während des Trainings eine Online-Voice-Data-Remixing-Augmentation \cite{zeghidour2020wavesplit} verwendet wird, lässt sich eine SDR-Verbesserung von 11,14 dB erreichen. Wir haben unsere Nachimplementierung von DPRNN-TasNet unter https://github.com/ShiZiqiang/dual-path-RNNs-DPRNNs-based-speech-separation veröffentlicht. Unser TasTas basiert auf dieser Implementierung von DPRNN-TasNet, wodurch die Ergebnisse dieser Arbeit problemlos reproduzierbar sind.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp