HyperAIHyperAI
vor 15 Tagen

Beschleunigung der hochfrequenten Wellenformgenerierung durch adversariales Flussanpassungs-Optimierungsverfahren

Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
Beschleunigung der hochfrequenten Wellenformgenerierung durch adversariales Flussanpassungs-Optimierungsverfahren
Abstract

Diese Arbeit stellt PeriodWave-Turbo vor, ein hochfidelitäts- und hoch-effizientes Modell zur Wellenformgenerierung, das durch adversarische Flow-Matching-Optimierung erreicht wird. In jüngster Zeit wurden bedingte Flow-Matching-(CFM-)Generativmodelle erfolgreich für Aufgaben der Wellenformgenerierung eingesetzt und nutzen dabei ein einziges Vektorfeld-Schätzungsoptimierungsziel für das Training. Obwohl diese Modelle hochfidelitätsreiche Wellenformsignale erzeugen können, erfordern sie im Vergleich zu GAN-basierten Modellen erheblich mehr ODE-Schritte – letztere benötigen lediglich einen einzigen Generations-Schritt. Zudem fehlen den generierten Signalen oft hochfrequente Informationen, da die verrauschte Schätzung des Vektorfeldes die Wiedergabe hoher Frequenzen nicht sicherstellt. Um diese Einschränkung zu überwinden, verbessern wir vortrainierte CFM-basierte Generativmodelle durch die Einführung einer Generatormodifikation mit festen Schritten. Wir nutzen Rekonstruktionsverluste und adversarische Rückkopplung, um die Generierung hochfidelitätsreicher Wellenformen zu beschleunigen. Durch die adversarische Flow-Matching-Optimierung genügen lediglich 1.000 Schritte der Feinabstimmung, um state-of-the-art-Leistung in mehreren objektiven Metriken zu erreichen. Zudem reduzieren wir die Inference-Geschwindigkeit signifikant von 16 auf lediglich 2 oder 4 Schritte. Darüber hinaus steigern wir die Leistungsfähigkeit von PeriodWave, indem wir die Anzahl der Parameter des Basismodells von 29 M auf 70 M erhöhen, um eine bessere Generalisierung zu gewährleisten. PeriodWave-Turbo erreicht damit eine bisher unerreichte Leistung mit einem perceptiven Sprachqualitäts-Test (PESQ)-Wert von 4,454 auf dem LibriTTS-Datensatz. Audio-Beispiele, der Quellcode und die Modell-Checkpoint-Dateien werden unter https://github.com/sh-lee-prml/PeriodWave zur Verfügung gestellt.

Beschleunigung der hochfrequenten Wellenformgenerierung durch adversariales Flussanpassungs-Optimierungsverfahren | Neueste Forschungsarbeiten | HyperAI