HyperAIHyperAI

Command Palette

Search for a command to run...

EVA-GAN: Verbesserte Vielfältige Audioerzeugung mittels skalierbarer generativer adversarischer Netzwerke

Shijia Liao Shiyi Lan Arun George Zachariah

Zusammenfassung

Der Aufstieg großer Modelle markiert ein neues Zeitalter im maschinellen Lernen und übertrifft kleinere Modelle erheblich, indem es riesige Datensätze nutzt, um komplexe Muster zu erfassen und zu synthetisieren. Trotz dieser Fortschritte bleibt die Erforschung der Skalierung, insbesondere im Bereich der Audio-Generierung, begrenzt. Bisherige Ansätze erreichten nicht den hochauflösenden (HiFi)-Bereich von 44,1 kHz und leiden unter Spektralunterbrechungen sowie Verschwommenheit im Hochfrequenzbereich, zudem zeigen sie eine geringe Robustheit gegenüber Daten außerhalb des Trainingsdomänen. Diese Einschränkungen beschränken die Anwendbarkeit der Modelle auf vielfältige Einsatzszenarien, darunter Musik- und Gesangsgenerierung. In unserer Arbeit stellen wir EVA-GAN (Enhanced Various Audio Generation via Scalable Generative Adversarial Networks) vor, das signifikante Verbesserungen gegenüber vorherigen State-of-the-Art-Methoden in der Spektral- und Hochfrequenzrekonstruktion sowie in der Robustheit gegenüber Daten außerhalb des Trainingsdomänen erzielt. Dadurch wird die Generierung von HiFi-Audio möglich, wobei ein umfangreiches Datenset aus 36.000 Stunden Audio mit einer Abtastrate von 44,1 kHz, ein kontextbewusstes Modul, ein Human-In-The-Loop-Artifact-Messwerkzeug sowie eine Modellgröße von etwa 200 Millionen Parametern genutzt werden. Demonstrationen unserer Arbeit sind unter https://double-blind-eva-gan.cc verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
EVA-GAN: Verbesserte Vielfältige Audioerzeugung mittels skalierbarer generativer adversarischer Netzwerke | Paper | HyperAI