HyperAIHyperAI

Command Palette

Search for a command to run...

Vers la séparation de parole dans le problème pré-« cocktail party » avec TasTas

Ziqiang Shi Jiqing Han

Résumé

Dans cette note, nous proposons d'utiliser TasTas \cite{shi2020speech} dans une approche end-to-end pour la séparation de paroles monophoniques dans le cadre du problème pré-cocktail party. Nos expériences menées sur le corpus public WSJ0-5mix ont permis d'obtenir une amélioration de 10,41 dB en SDR. Lorsqu'une augmentation par remixage en temps réel des données vocales est intégrée durant l'entraînement \cite{zeghidour2020wavesplit}, une amélioration de 11,14 dB en SDR peut être atteinte. Nous avons rendu public notre réimplémentation de DPRNN-TasNet à l'adresse suivante : https://github.com/ShiZiqiang/dual-path-RNNs-DPRNNs-based-speech-separation. Notre implémentation de TasTas repose sur cette version de DPRNN-TasNet, et il est estimé que les résultats présentés dans cet article peuvent être facilement reproduits.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Vers la séparation de parole dans le problème pré-« cocktail party » avec TasTas | Articles | HyperAI