HyperAIHyperAI

Command Palette

Search for a command to run...

Wavesplit : Séparation vocale end-to-end par regroupement par locuteur

Neil Zeghidour David Grangier

Résumé

Nous présentons Wavesplit, un système de séparation de sources end-to-end. À partir d’un mélange unique, le modèle infère une représentation pour chaque source, puis estime le signal de chaque source à partir des représentations ainsi obtenues. Le modèle est entraîné pour effectuer simultanément les deux tâches à partir de la forme d’onde brute. Wavesplit obtient un ensemble de représentations de sources via un regroupement (clustering), ce qui permet de résoudre le problème fondamental de permutation lié à la séparation. Pour la séparation de paroles, nos représentations de locuteurs à l’échelle de la séquence offrent une séparation plus robuste des enregistrements longs et difficiles par rapport aux approches antérieures. Wavesplit redéfinit l’état de l’art sur des mélanges purs de deux ou trois locuteurs (WSJ0-2/3mix), ainsi que dans des conditions bruitées et réverbérées (WHAM/WHAMR). Nous établissons également une nouvelle référence sur le jeu de données récent LibriMix. Enfin, nous démontrons que Wavesplit est également applicable à d’autres domaines, en séparant les fréquences cardiaques fœtales et maternelles à partir d’un unique électrocardiogramme abdominal.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp