vor 6 Monaten

Zusammenfassung

Generative adversarial network-(GAN)-basierte Vocoder wurden intensiv untersucht, da sie hochfidelitätsreiche Audio-Signale schneller als in Echtzeit synthetisieren können. Es wurde jedoch berichtet, dass die meisten GANs nicht in der Lage sind, die optimale Projektion im Merkmalsraum zur Unterscheidung zwischen echten und gefälschten Daten zu erlangen. In der Literatur wurde gezeigt, dass der slicing adversarial network (SAN), ein verbessertes GAN-Trainingsframework, das die optimale Projektion finden kann, effektiv bei Aufgaben der Bildgenerierung ist. In dieser Arbeit untersuchen wir die Wirksamkeit von SAN im Kontext der Vocoding-Aufgabe. Hierzu schlagen wir eine Methode vor, um den Least-Squares GAN – den GAN-Typ, der von den meisten GAN-basierten Vocodern verwendet wird – so zu modifizieren, dass dessen Verlustfunktionen die Anforderungen von SAN erfüllen. In unseren Experimenten zeigen wir, dass SAN die Leistung von GAN-basierten Vocodern, einschließlich BigVGAN, mit nur geringfügigen Änderungen verbessern kann. Unser Quellcode ist unter https://github.com/sony/bigvsan verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Text-to-Speech

Audio- Und Sprachverarbeitung

Takashi Shibuya Yuhta Takida Yuki Mitsufuji

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Text-to-Speech

Audio- Und Sprachverarbeitung

Takashi Shibuya Yuhta Takida Yuki Mitsufuji

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

BigVSAN: Verbesserung von GAN-basierten neuronalen Sprachsynthesemodellen durch Slicing Adversarial Network

Takashi Shibuya Yuhta Takida Yuki Mitsufuji

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

BigVSAN: Verbesserung von GAN-basierten neuronalen Sprachsynthesemodellen durch Slicing Adversarial Network

Takashi Shibuya Yuhta Takida Yuki Mitsufuji

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

BigVSAN: Verbesserung von GAN-basierten neuronalen Sprachsynthesemodellen durch Slicing Adversarial Network

Takashi Shibuya Yuhta Takida Yuki Mitsufuji

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters