HyperAIHyperAI
il y a 2 mois

Séparer et Diffuser : Utilisation d'un Modèle de Diffusion Pré-entraîné pour Améliorer la Séparation des Sources

Shahar Lutati; Eliya Nachmani; Lior Wolf
Séparer et Diffuser : Utilisation d'un Modèle de Diffusion Pré-entraîné pour Améliorer la Séparation des Sources
Résumé

Le problème de séparation de la parole, également connu sous le nom du problème du cocktail, fait référence à la tâche consistant à isoler un signal vocal unique d'un mélange de signaux vocaux. Les travaux antérieurs sur la séparation des sources ont établi une borne supérieure pour la tâche de séparation des sources dans le domaine de la parole humaine. Cette borne est dérivée pour des modèles déterministes. Les récentes avancées dans les modèles génératifs remettent en question cette borne. Nous montrons comment cette borne supérieure peut être généralisée au cas des modèles génératifs aléatoires. L'application d'un modèle Vocoder de diffusion pré-entraîné pour modéliser les voix monocanales sur la sortie d'un modèle de séparation déterministe conduit à des résultats de séparation d'état de l'art. Il est démontré que cela nécessite de combiner la sortie du modèle de séparation avec celle du modèle de diffusion. Dans notre méthode, une combinaison linéaire est effectuée dans le domaine fréquentiel, en utilisant des poids inférés par un modèle appris. Nous présentons des résultats d'état de l'art pour 2, 3, 5, 10 et 20 locuteurs sur plusieurs benchmarks. En particulier, pour deux locuteurs, notre méthode est capable de surpasser ce qui était précédemment considéré comme la borne supérieure des performances.

Séparer et Diffuser : Utilisation d'un Modèle de Diffusion Pré-entraîné pour Améliorer la Séparation des Sources | Articles de recherche récents | HyperAI