EVA-GAN: Verbesserte Vielfältige Audioerzeugung mittels skalierbarer generativer adversarischer Netzwerke

Der Aufstieg großer Modelle markiert ein neues Zeitalter im maschinellen Lernen und übertrifft kleinere Modelle erheblich, indem es riesige Datensätze nutzt, um komplexe Muster zu erfassen und zu synthetisieren. Trotz dieser Fortschritte bleibt die Erforschung der Skalierung, insbesondere im Bereich der Audio-Generierung, begrenzt. Bisherige Ansätze erreichten nicht den hochauflösenden (HiFi)-Bereich von 44,1 kHz und leiden unter Spektralunterbrechungen sowie Verschwommenheit im Hochfrequenzbereich, zudem zeigen sie eine geringe Robustheit gegenüber Daten außerhalb des Trainingsdomänen. Diese Einschränkungen beschränken die Anwendbarkeit der Modelle auf vielfältige Einsatzszenarien, darunter Musik- und Gesangsgenerierung. In unserer Arbeit stellen wir EVA-GAN (Enhanced Various Audio Generation via Scalable Generative Adversarial Networks) vor, das signifikante Verbesserungen gegenüber vorherigen State-of-the-Art-Methoden in der Spektral- und Hochfrequenzrekonstruktion sowie in der Robustheit gegenüber Daten außerhalb des Trainingsdomänen erzielt. Dadurch wird die Generierung von HiFi-Audio möglich, wobei ein umfangreiches Datenset aus 36.000 Stunden Audio mit einer Abtastrate von 44,1 kHz, ein kontextbewusstes Modul, ein Human-In-The-Loop-Artifact-Messwerkzeug sowie eine Modellgröße von etwa 200 Millionen Parametern genutzt werden. Demonstrationen unserer Arbeit sind unter https://double-blind-eva-gan.cc verfügbar.