Investigation des objectifs d'entraînement pour l'amélioration générative de la parole

L’amélioration générative de la parole a récemment connu des avancées prometteuses dans la mise en œuvre de la qualité vocale en milieu bruyant. Plusieurs cadres fondés sur la diffusion existent, chacun mettant en œuvre des objectifs d’entraînement et des techniques d’apprentissage distincts. Ce papier vise à expliquer les différences entre ces cadres en se concentrant sur les modèles génératifs basés sur les scores et le pont de Schrödinger. Nous menons une série d’expériences approfondies afin de comparer leurs performances et de mettre en évidence leurs comportements d’entraînement différents. Par ailleurs, nous proposons une nouvelle fonction de perte perceptuelle adaptée au cadre du pont de Schrödinger, démontrant une amélioration des performances ainsi qu’une qualité perceptuelle accrue des signaux vocaux améliorés. Le code expérimental et les modèles pré-entraînés sont entièrement disponibles au public afin de faciliter les recherches et le développement futurs dans ce domaine.