Stabile Audio-Öffnung

Offene generative Modelle sind für die Gemeinschaft von entscheidender Bedeutung, da sie Feinabstimmungen ermöglichen und als Baseline bei der Vorstellung neuer Modelle dienen. Derzeit sind jedoch die meisten Text-zu-Audio-Modelle privat und nicht für Künstler und Forscher zugänglich, um darauf aufzubauen. In diesem Artikel beschreiben wir die Architektur und den Trainingsprozess eines neuen offenen Text-zu-Audio-Modells, das mit Daten unter der Creative Commons-Lizenz trainiert wurde. Unsere Evaluation zeigt, dass die Leistung des Modells in verschiedenen Metriken wettbewerbsfähig ist. Besonders auffällig sind die gemeldeten FDopenl3-Ergebnisse (die die Realitätstreue der Generierungen messen), die dessen Potenzial zur Erzeugung hochwertiger Stereo-Sounds bei 44,1 kHz unterstreichen.