L’harmonicité joue un rôle critique dans les systèmes de séparation monaurale de parole basés sur les DNN par rapport à ceux inspirés par la biologie

Les avancées récentes dans l’apprentissage profond ont conduit à des améliorations considérables des modèles de séparation de parole. Malgré leur succès croissant et leur large applicabilité, très peu d’efforts ont été consacrés à l’analyse des principes fondamentaux que ces réseaux apprennent pour réaliser la séparation. Dans cette étude, nous examinons le rôle de l’harmonicité sur deux modèles de réseaux de neurones profonds (DNN) d’avant-garde — Conv-TasNet et DPT-Net. Nous évaluons leur performance sur des mélanges de paroles naturelles par rapport à des mélanges de paroles légèrement déséquilibrées en harmonie, où les harmoniques sont légèrement décalées en fréquence. Nous constatons que les performances se dégradent de manière significative dès qu’un des sources présente une légère instabilité harmonique : par exemple, un jitter harmonique imperceptible de 3 % entraîne une dégradation des performances de Conv-TasNet, passant de 15,4 dB à 0,70 dB. Former le modèle sur des mélanges déséquilibrés en harmonie ne corrige pas cette sensibilité, au contraire, il entraîne une performance dégradée sur les mélanges de paroles naturelles, ce qui rend l’inharmonicité un facteur adversarial puissant pour les modèles DNN. En outre, des analyses complémentaires révèlent que les algorithmes DNN s’écartent fortement des algorithmes biologiquement inspirés, qui reposent principalement sur des indices temporels et non sur l’harmonicité pour séparer la parole.