HyperAIHyperAI

Command Palette

Search for a command to run...

Investigation des objectifs d'entraînement pour l'amélioration générative de la parole

Julius Richter Danilo de Oliveira Timo Gerkmann

Résumé

L’amélioration générative de la parole a récemment connu des avancées prometteuses dans la mise en œuvre de la qualité vocale en milieu bruyant. Plusieurs cadres fondés sur la diffusion existent, chacun mettant en œuvre des objectifs d’entraînement et des techniques d’apprentissage distincts. Ce papier vise à expliquer les différences entre ces cadres en se concentrant sur les modèles génératifs basés sur les scores et le pont de Schrödinger. Nous menons une série d’expériences approfondies afin de comparer leurs performances et de mettre en évidence leurs comportements d’entraînement différents. Par ailleurs, nous proposons une nouvelle fonction de perte perceptuelle adaptée au cadre du pont de Schrödinger, démontrant une amélioration des performances ainsi qu’une qualité perceptuelle accrue des signaux vocaux améliorés. Le code expérimental et les modèles pré-entraînés sont entièrement disponibles au public afin de faciliter les recherches et le développement futurs dans ce domaine.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Investigation des objectifs d'entraînement pour l'amélioration générative de la parole | Articles | HyperAI