Command Palette
Search for a command to run...
Stabile Audio-Öffnung
Stabile Audio-Öffnung
Zach Evans Julian D. Parker CJ Carr Zack Zukowski Josiah Taylor Jordi Pons
Zusammenfassung
Offene generative Modelle sind für die Gemeinschaft von entscheidender Bedeutung, da sie Feinabstimmungen ermöglichen und als Baseline bei der Vorstellung neuer Modelle dienen. Derzeit sind jedoch die meisten Text-zu-Audio-Modelle privat und nicht für Künstler und Forscher zugänglich, um darauf aufzubauen. In diesem Artikel beschreiben wir die Architektur und den Trainingsprozess eines neuen offenen Text-zu-Audio-Modells, das mit Daten unter der Creative Commons-Lizenz trainiert wurde. Unsere Evaluation zeigt, dass die Leistung des Modells in verschiedenen Metriken wettbewerbsfähig ist. Besonders auffällig sind die gemeldeten FDopenl3-Ergebnisse (die die Realitätstreue der Generierungen messen), die dessen Potenzial zur Erzeugung hochwertiger Stereo-Sounds bei 44,1 kHz unterstreichen.