il y a 15 jours
Séparation vocale avec un nombre inconnu de locuteurs multiples
Eliya Nachmani, Yossi Adi, Lior Wolf

Résumé
Nous présentons une nouvelle méthode de séparation d'une séquence audio mixée, dans laquelle plusieurs voix parlent simultanément. La méthode proposée utilise des réseaux neuronaux à portes entraînés pour séparer les voix à plusieurs étapes de traitement, tout en maintenant le locuteur associé à chaque canal de sortie fixe. Un modèle distinct est entraîné pour chaque nombre possible de locuteurs, et le modèle correspondant au plus grand nombre de locuteurs est utilisé pour estimer le nombre réel de locuteurs présents dans un échantillon donné. Notre méthode surpasse de manière significative l'état de l'art actuel, qui, comme nous le démontrons, n'est pas compétitif lorsqu'il y a plus de deux locuteurs.