Command Palette
Search for a command to run...
PeriodWave: Multi-Period Flow Matching für die hochauflösende Wellenformgenerierung
PeriodWave: Multi-Period Flow Matching für die hochauflösende Wellenformgenerierung
Sang-Hoon Lee Ha-Yeong Choi Seong-Whan Lee
Zusammenfassung
In jüngster Zeit wurden universelle Wellenformgenerierungsaufgaben unter Berücksichtigung verschiedener Out-of-Distribution-Szenarien untersucht. Obwohl GAN-basierte Methoden ihre Stärke bei der schnellen Generierung von Wellenformen gezeigt haben, sind sie anfällig für Train-Test-Mismatch-Szenarien, wie beispielsweise bei zweistufigen Text-zu-Sprache-Systemen. Gleichzeitig haben Diffusionsmodelle in anderen Domänen eine beeindruckende generative Leistung demonstriert; aufgrund ihrer langsamen Inferenzgeschwindigkeit bei der Wellenformgenerierung bleiben sie jedoch im Schatten. Vor allem fehlt bisher eine Generatorarchitektur, die die natürlichen periodischen Merkmale hochauflösender Wellenformsignale explizit entkoppeln kann. In diesem Artikel stellen wir PeriodWave vor, ein neuartiges universelles Modell zur Wellenformgenerierung. Zunächst führen wir einen periodenbewussten Fluss-Matching-Schätzer ein, der die periodischen Merkmale des Wellenformsignals bei der Schätzung der Vektorfelder erfassen kann. Zusätzlich nutzen wir einen Multi-Period-Schätzer, der Überlappungen vermeidet, um verschiedene periodische Merkmale von Wellenformsignalen zu erfassen. Obwohl die Erhöhung der Anzahl der Perioden die Leistung erheblich verbessern kann, erfordert dies höhere Rechenkosten. Um dieses Problem zu verringern, schlagen wir zudem einen einzigen, periodenbedingten universellen Schätzer vor, der durch periodenweise Batch-Inferenz parallelisiert vorwärts berechnet werden kann. Darüber hinaus nutzen wir die diskrete Wavelet-Transformation, um die Frequenzinformationen von Wellenformsignalen verlustfrei zu entkoppeln, um die Modellierung hoher Frequenzen zu verbessern, und integrieren FreeU, um das Rauschen bei hohen Frequenzen bei der Wellenformgenerierung zu reduzieren. Die experimentellen Ergebnisse zeigen, dass unser Modell sowohl bei der Mel-Spektrogramm-Rekonstruktion als auch bei Text-zu-Sprache-Aufgaben die bisherigen Modelle übertrifft. Der gesamte Quellcode wird unter https://github.com/sh-lee-prml/PeriodWave verfügbar sein.