SepIt : Approcher la Limite de Séparation du Discours à un Canal Unique

Nous présentons une borne supérieure pour la tâche de Séparation de Parole à Canal Unique, qui repose sur une hypothèse concernant la nature des segments courts de parole. Grâce à cette borne, nous sommes en mesure de démontrer que bien que les méthodes récentes aient réalisé des progrès significatifs pour quelques locuteurs, il existe encore un potentiel d'amélioration pour cinq et dix locuteurs. Nous introduisons ensuite un réseau neuronal profond, SepIt, qui améliore itérativement l'estimation des différents locuteurs. Lors des tests, le nombre d'itérations de SepIt varie pour chaque échantillon testé, en fonction d'un critère d'information mutuelle issu de notre analyse. Dans un ensemble étendu d'expériences, SepIt surpass les réseaux neuronaux les plus avancés actuellement disponibles pour 2, 3, 5 et 10 locuteurs.