BigVSAN: Verbesserung von GAN-basierten neuronalen Sprachsynthesemodellen durch Slicing Adversarial Network

Generative adversarial network-(GAN)-basierte Vocoder wurden intensiv untersucht, da sie hochfidelitätsreiche Audio-Signale schneller als in Echtzeit synthetisieren können. Es wurde jedoch berichtet, dass die meisten GANs nicht in der Lage sind, die optimale Projektion im Merkmalsraum zur Unterscheidung zwischen echten und gefälschten Daten zu erlangen. In der Literatur wurde gezeigt, dass der slicing adversarial network (SAN), ein verbessertes GAN-Trainingsframework, das die optimale Projektion finden kann, effektiv bei Aufgaben der Bildgenerierung ist. In dieser Arbeit untersuchen wir die Wirksamkeit von SAN im Kontext der Vocoding-Aufgabe. Hierzu schlagen wir eine Methode vor, um den Least-Squares GAN – den GAN-Typ, der von den meisten GAN-basierten Vocodern verwendet wird – so zu modifizieren, dass dessen Verlustfunktionen die Anforderungen von SAN erfüllen. In unseren Experimenten zeigen wir, dass SAN die Leistung von GAN-basierten Vocodern, einschließlich BigVGAN, mit nur geringfügigen Änderungen verbessern kann. Unser Quellcode ist unter https://github.com/sony/bigvsan verfügbar.