HyperAIHyperAI
vor 2 Monaten

Stabile Audio-Öffnung

Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
Stabile Audio-Öffnung
Abstract

Offene generative Modelle sind für die Gemeinschaft von entscheidender Bedeutung, da sie Feinabstimmungen ermöglichen und als Baseline bei der Vorstellung neuer Modelle dienen. Derzeit sind jedoch die meisten Text-zu-Audio-Modelle privat und nicht für Künstler und Forscher zugänglich, um darauf aufzubauen. In diesem Artikel beschreiben wir die Architektur und den Trainingsprozess eines neuen offenen Text-zu-Audio-Modells, das mit Daten unter der Creative Commons-Lizenz trainiert wurde. Unsere Evaluation zeigt, dass die Leistung des Modells in verschiedenen Metriken wettbewerbsfähig ist. Besonders auffällig sind die gemeldeten FDopenl3-Ergebnisse (die die Realitätstreue der Generierungen messen), die dessen Potenzial zur Erzeugung hochwertiger Stereo-Sounds bei 44,1 kHz unterstreichen.

Stabile Audio-Öffnung | Neueste Forschungsarbeiten | HyperAI