Command Palette
Search for a command to run...
Auto-Regressiv vs. Flow-Matching: Eine vergleichende Studie der Modellierungsparadigmen für die Text-zu-Musik-Generierung
Auto-Regressiv vs. Flow-Matching: Eine vergleichende Studie der Modellierungsparadigmen für die Text-zu-Musik-Generierung
Tal Or Kreuk Felix Adi Yossi
Zusammenfassung
Kürzliche Fortschritte bei der Text-zu-Musik-Generierung haben es ermöglicht, Modelle zu entwickeln, die hochwertige musikalische Segmente, vollständige Kompositionen und sogar auf feingranuläre Steuersignale wie Akkordfortschreitungen reagieren können. Die Stand-of-the-Art-Systeme (SOTA) unterscheiden sich erheblich in vielen Dimensionen, wie zum Beispiel Trainingsdatensätze, Modellierungsparadigmen und architektonische Entscheidungen. Diese Vielfalt erschwert Bemühungen, Modelle gerecht zu bewerten und die Designentscheidungen zu identifizieren, die den größten Einfluss auf die Leistung haben. Obwohl Faktoren wie Daten und Architektur wichtig sind, konzentriert sich diese Studie ausschließlich auf das Modellierungsparadigma. Wir führen eine systematische empirische Analyse durch, um seine Effekte zu isolieren und Einblicke in die damit verbundenen Kompromisse sowie emergierendes Verhalten zu geben, das zukünftige Text-zu-Musik-Generierungssysteme leiten kann. Insbesondere vergleichen wir die beiden am häufigsten verwendeten Modellierungsparadigmen: Auto-Regressive Decodierung und Conditional Flow-Matching. Durch einen kontrollierten Vergleich trainieren wir alle Modelle von Grund auf mit identischen Datensätzen, Trainingskonfigurationen und ähnlichen Backbone-Architekturen. Die Leistung wird entlang mehrerer Achsen evaluiert, darunter Generierungsqualität, Robustheit gegenüber Inferenzkonfigurationen, Skalierbarkeit, Anpassung an sowohl textbasierte als auch zeitlich ausgerichtete Bedingungen sowie Bearbeitungsfähigkeiten in Form von Audio-Inpainting. Diese vergleichende Studie beleuchtet die unterschiedlichen Stärken und Schwächen jedes Paradigmas und bietet praktische Erkenntnisse, die zukünftige architektonische und Trainingsentscheidungen im sich wandelnden Bereich der Text-zu-Musik-Generierung beeinflussen können. Audiosamples sind unter folgender URL verfügbar: https://huggingface.co/spaces/ortal1602/ARvsFM