HyperAIHyperAI

Command Palette

Search for a command to run...

Sprachstilumwandlung im Wellenformbereich unter Verwendung diskreter selbstüberwachter Einheiten

Gallil Maimon Yossi Adi

Zusammenfassung

Wir stellen DISSC vor, eine neuartige, leichtgewichtige Methode, die Rhythmus, Tonhöhenverlauf und Klangfarbe einer Aufnahme auf einen Zielredner textlos überträgt. Im Gegensatz zu DISSC legen die meisten Voice-Conversion-(VC)-Verfahren primär den Fokus auf die Klangfarbe und ignorieren dabei die individuelle Sprechweise (Prosodie) der Sprecher. Der vorgeschlagene Ansatz nutzt ein vortrainiertes, selbstüberwachtes Modell zur Kodierung von Sprache in diskrete Einheiten, was die Methode einfach, effektiv und schnell trainierbar macht. Alle Konvertierungsmoduln werden ausschließlich auf Rekonstruktionsaufgaben trainiert, wodurch sie für beliebige-to-viele-VC-Anwendungen ohne gepaarte Daten geeignet sind. Wir führen eine Reihe quantitativer und qualitativer Bewertungsmaße für diesen Ansatz ein und zeigen empirisch, dass DISSC die verglichenen Baselines erheblich übertrifft. Der Quellcode und Audiomuster sind unter https://pages.cs.huji.ac.il/adiyoss-lab/dissc/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp