HyperAIHyperAI

Command Palette

Search for a command to run...

Stabile Audio-Öffnung

Zach Evans Julian D. Parker CJ Carr Zack Zukowski Josiah Taylor Jordi Pons

Zusammenfassung

Offene generative Modelle sind für die Gemeinschaft von entscheidender Bedeutung, da sie Feinabstimmungen ermöglichen und als Baseline bei der Vorstellung neuer Modelle dienen. Derzeit sind jedoch die meisten Text-zu-Audio-Modelle privat und nicht für Künstler und Forscher zugänglich, um darauf aufzubauen. In diesem Artikel beschreiben wir die Architektur und den Trainingsprozess eines neuen offenen Text-zu-Audio-Modells, das mit Daten unter der Creative Commons-Lizenz trainiert wurde. Unsere Evaluation zeigt, dass die Leistung des Modells in verschiedenen Metriken wettbewerbsfähig ist. Besonders auffällig sind die gemeldeten FDopenl3-Ergebnisse (die die Realitätstreue der Generierungen messen), die dessen Potenzial zur Erzeugung hochwertiger Stereo-Sounds bei 44,1 kHz unterstreichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp