HyperAIHyperAI

Command Palette

Search for a command to run...

BigVSAN: Verbesserung von GAN-basierten neuronalen Sprachsynthesemodellen durch Slicing Adversarial Network

Takashi Shibuya Yuhta Takida Yuki Mitsufuji

Zusammenfassung

Generative adversarial network-(GAN)-basierte Vocoder wurden intensiv untersucht, da sie hochfidelitätsreiche Audio-Signale schneller als in Echtzeit synthetisieren können. Es wurde jedoch berichtet, dass die meisten GANs nicht in der Lage sind, die optimale Projektion im Merkmalsraum zur Unterscheidung zwischen echten und gefälschten Daten zu erlangen. In der Literatur wurde gezeigt, dass der slicing adversarial network (SAN), ein verbessertes GAN-Trainingsframework, das die optimale Projektion finden kann, effektiv bei Aufgaben der Bildgenerierung ist. In dieser Arbeit untersuchen wir die Wirksamkeit von SAN im Kontext der Vocoding-Aufgabe. Hierzu schlagen wir eine Methode vor, um den Least-Squares GAN – den GAN-Typ, der von den meisten GAN-basierten Vocodern verwendet wird – so zu modifizieren, dass dessen Verlustfunktionen die Anforderungen von SAN erfüllen. In unseren Experimenten zeigen wir, dass SAN die Leistung von GAN-basierten Vocodern, einschließlich BigVGAN, mit nur geringfügigen Änderungen verbessern kann. Unser Quellcode ist unter https://github.com/sony/bigvsan verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp