Command Palette
Search for a command to run...
Conversion de voix avec uniquement des voisins les plus proches
Conversion de voix avec uniquement des voisins les plus proches
Matthew Baas Benjamin van Niekerk Herman Kamper
Résumé
La conversion vocale « n’importe quel vers n’importe quel » vise à transformer une parole source en une voix cible à partir de seulement quelques exemples de la personne cible comme référence. Les méthodes récentes parviennent à produire des conversions convaincantes, mais au prix d’une complexité accrue, rendant les résultats difficiles à reproduire et à étendre. À la place, nous privilégions la simplicité. Nous proposons une méthode de conversion vocale basée sur les k plus proches voisins (kNN-VC) : une approche directe mais efficace pour la conversion « n’importe quel vers n’importe quel ». Tout d’abord, nous extrayons des représentations auto-supervisées de la parole source et de la parole de référence. Pour convertir vers le locuteur cible, nous remplaçons chaque trame de la représentation source par son plus proche voisin dans la représentation de référence. Enfin, un vocodeur pré-entraîné synthétise l’audio à partir de cette représentation convertie. Des évaluations objectives et subjectives montrent que kNN-VC améliore la similarité de locuteur tout en maintenant des scores d’intelligibilité comparables à ceux des méthodes existantes. Code, échantillons, modèles entraînés : https://bshall.github.io/knn-vc