Command Palette
Search for a command to run...
Stimmenkonvertierung mit nur den nächsten Nachbarn
Stimmenkonvertierung mit nur den nächsten Nachbarn
Matthew Baas Benjamin van Niekerk Herman Kamper
Zusammenfassung
Any-to-any-Sprachumwandlung zielt darauf ab, Sprache aus einer Quelle in die Stimme eines Zielvortragenden umzuwandeln, wobei lediglich wenige Beispiele des Zielvortragenden als Referenz dienen. Moderne Methoden erzielen überzeugende Ergebnisse, jedoch zu Lasten einer erhöhten Komplexität – was die Reproduzierbarkeit und Weiterentwicklung der Ergebnisse erschwert. Stattdessen behalten wir die Einfachheit bei. Wir stellen k-nearest neighbors-Sprachumwandlung (kNN-VC) vor: eine einfache, dennoch wirksame Methode für any-to-any-Umwandlung. Zunächst extrahieren wir selbstüberwachte Darstellungen der Quell- und Referenzsprache. Um in die Stimme des Zielvortragenden umzuwandeln, ersetzen wir jedes Frame der Quelldarstellung durch sein nächstgelegenes Nachbar-Frame in der Referenzdarstellung. Schließlich synthetisiert ein vortrainiertes Vokoder Audio aus der umgewandelten Darstellung. Objektive und subjektive Bewertungen zeigen, dass kNN-VC die Sprecherähnlichkeit verbessert, während die Verständlichkeit vergleichbar mit bestehenden Methoden bleibt. Code, Audiomuster und trainierte Modelle: https://bshall.github.io/knn-vc