HyperAIHyperAI

Command Palette

Search for a command to run...

Stimmenkonvertierung mit nur den nächsten Nachbarn

Matthew Baas Benjamin van Niekerk Herman Kamper

Zusammenfassung

Any-to-any-Sprachumwandlung zielt darauf ab, Sprache aus einer Quelle in die Stimme eines Zielvortragenden umzuwandeln, wobei lediglich wenige Beispiele des Zielvortragenden als Referenz dienen. Moderne Methoden erzielen überzeugende Ergebnisse, jedoch zu Lasten einer erhöhten Komplexität – was die Reproduzierbarkeit und Weiterentwicklung der Ergebnisse erschwert. Stattdessen behalten wir die Einfachheit bei. Wir stellen k-nearest neighbors-Sprachumwandlung (kNN-VC) vor: eine einfache, dennoch wirksame Methode für any-to-any-Umwandlung. Zunächst extrahieren wir selbstüberwachte Darstellungen der Quell- und Referenzsprache. Um in die Stimme des Zielvortragenden umzuwandeln, ersetzen wir jedes Frame der Quelldarstellung durch sein nächstgelegenes Nachbar-Frame in der Referenzdarstellung. Schließlich synthetisiert ein vortrainiertes Vokoder Audio aus der umgewandelten Darstellung. Objektive und subjektive Bewertungen zeigen, dass kNN-VC die Sprecherähnlichkeit verbessert, während die Verständlichkeit vergleichbar mit bestehenden Methoden bleibt. Code, Audiomuster und trainierte Modelle: https://bshall.github.io/knn-vc


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp