HyperAIHyperAI

Command Palette

Search for a command to run...

Conversion de voix avec uniquement des voisins les plus proches

Matthew Baas Benjamin van Niekerk Herman Kamper

Résumé

La conversion vocale « n’importe quel vers n’importe quel » vise à transformer une parole source en une voix cible à partir de seulement quelques exemples de la personne cible comme référence. Les méthodes récentes parviennent à produire des conversions convaincantes, mais au prix d’une complexité accrue, rendant les résultats difficiles à reproduire et à étendre. À la place, nous privilégions la simplicité. Nous proposons une méthode de conversion vocale basée sur les k plus proches voisins (kNN-VC) : une approche directe mais efficace pour la conversion « n’importe quel vers n’importe quel ». Tout d’abord, nous extrayons des représentations auto-supervisées de la parole source et de la parole de référence. Pour convertir vers le locuteur cible, nous remplaçons chaque trame de la représentation source par son plus proche voisin dans la représentation de référence. Enfin, un vocodeur pré-entraîné synthétise l’audio à partir de cette représentation convertie. Des évaluations objectives et subjectives montrent que kNN-VC améliore la similarité de locuteur tout en maintenant des scores d’intelligibilité comparables à ceux des méthodes existantes. Code, échantillons, modèles entraînés : https://bshall.github.io/knn-vc


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Conversion de voix avec uniquement des voisins les plus proches | Articles | HyperAI