HyperAIHyperAI
vor 17 Tagen

Sprachstilumwandlung im Wellenformbereich unter Verwendung diskreter selbstüberwachter Einheiten

Gallil Maimon, Yossi Adi
Sprachstilumwandlung im Wellenformbereich unter Verwendung diskreter selbstüberwachter Einheiten
Abstract

Wir stellen DISSC vor, eine neuartige, leichtgewichtige Methode, die Rhythmus, Tonhöhenverlauf und Klangfarbe einer Aufnahme auf einen Zielredner textlos überträgt. Im Gegensatz zu DISSC legen die meisten Voice-Conversion-(VC)-Verfahren primär den Fokus auf die Klangfarbe und ignorieren dabei die individuelle Sprechweise (Prosodie) der Sprecher. Der vorgeschlagene Ansatz nutzt ein vortrainiertes, selbstüberwachtes Modell zur Kodierung von Sprache in diskrete Einheiten, was die Methode einfach, effektiv und schnell trainierbar macht. Alle Konvertierungsmoduln werden ausschließlich auf Rekonstruktionsaufgaben trainiert, wodurch sie für beliebige-to-viele-VC-Anwendungen ohne gepaarte Daten geeignet sind. Wir führen eine Reihe quantitativer und qualitativer Bewertungsmaße für diesen Ansatz ein und zeigen empirisch, dass DISSC die verglichenen Baselines erheblich übertrifft. Der Quellcode und Audiomuster sind unter https://pages.cs.huji.ac.il/adiyoss-lab/dissc/ verfügbar.