HyperAIHyperAI

Command Palette

Search for a command to run...

PeriodWave: Multi-Period Flow Matching für die hochauflösende Wellenformgenerierung

Sang-Hoon Lee Ha-Yeong Choi Seong-Whan Lee

Zusammenfassung

In jüngster Zeit wurden universelle Wellenformgenerierungsaufgaben unter Berücksichtigung verschiedener Out-of-Distribution-Szenarien untersucht. Obwohl GAN-basierte Methoden ihre Stärke bei der schnellen Generierung von Wellenformen gezeigt haben, sind sie anfällig für Train-Test-Mismatch-Szenarien, wie beispielsweise bei zweistufigen Text-zu-Sprache-Systemen. Gleichzeitig haben Diffusionsmodelle in anderen Domänen eine beeindruckende generative Leistung demonstriert; aufgrund ihrer langsamen Inferenzgeschwindigkeit bei der Wellenformgenerierung bleiben sie jedoch im Schatten. Vor allem fehlt bisher eine Generatorarchitektur, die die natürlichen periodischen Merkmale hochauflösender Wellenformsignale explizit entkoppeln kann. In diesem Artikel stellen wir PeriodWave vor, ein neuartiges universelles Modell zur Wellenformgenerierung. Zunächst führen wir einen periodenbewussten Fluss-Matching-Schätzer ein, der die periodischen Merkmale des Wellenformsignals bei der Schätzung der Vektorfelder erfassen kann. Zusätzlich nutzen wir einen Multi-Period-Schätzer, der Überlappungen vermeidet, um verschiedene periodische Merkmale von Wellenformsignalen zu erfassen. Obwohl die Erhöhung der Anzahl der Perioden die Leistung erheblich verbessern kann, erfordert dies höhere Rechenkosten. Um dieses Problem zu verringern, schlagen wir zudem einen einzigen, periodenbedingten universellen Schätzer vor, der durch periodenweise Batch-Inferenz parallelisiert vorwärts berechnet werden kann. Darüber hinaus nutzen wir die diskrete Wavelet-Transformation, um die Frequenzinformationen von Wellenformsignalen verlustfrei zu entkoppeln, um die Modellierung hoher Frequenzen zu verbessern, und integrieren FreeU, um das Rauschen bei hohen Frequenzen bei der Wellenformgenerierung zu reduzieren. Die experimentellen Ergebnisse zeigen, dass unser Modell sowohl bei der Mel-Spektrogramm-Rekonstruktion als auch bei Text-zu-Sprache-Aufgaben die bisherigen Modelle übertrifft. Der gesamte Quellcode wird unter https://github.com/sh-lee-prml/PeriodWave verfügbar sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp