HyperAIHyperAI

Command Palette

Search for a command to run...

Auto-Regressiv vs. Flow-Matching: Eine vergleichende Studie der Modellierungsparadigmen für die Text-zu-Musik-Generierung

Tal Or Kreuk Felix Adi Yossi

Zusammenfassung

Kürzliche Fortschritte bei der Text-zu-Musik-Generierung haben es ermöglicht, Modelle zu entwickeln, die hochwertige musikalische Segmente, vollständige Kompositionen und sogar auf feingranuläre Steuersignale wie Akkordfortschreitungen reagieren können. Die Stand-of-the-Art-Systeme (SOTA) unterscheiden sich erheblich in vielen Dimensionen, wie zum Beispiel Trainingsdatensätze, Modellierungsparadigmen und architektonische Entscheidungen. Diese Vielfalt erschwert Bemühungen, Modelle gerecht zu bewerten und die Designentscheidungen zu identifizieren, die den größten Einfluss auf die Leistung haben. Obwohl Faktoren wie Daten und Architektur wichtig sind, konzentriert sich diese Studie ausschließlich auf das Modellierungsparadigma. Wir führen eine systematische empirische Analyse durch, um seine Effekte zu isolieren und Einblicke in die damit verbundenen Kompromisse sowie emergierendes Verhalten zu geben, das zukünftige Text-zu-Musik-Generierungssysteme leiten kann. Insbesondere vergleichen wir die beiden am häufigsten verwendeten Modellierungsparadigmen: Auto-Regressive Decodierung und Conditional Flow-Matching. Durch einen kontrollierten Vergleich trainieren wir alle Modelle von Grund auf mit identischen Datensätzen, Trainingskonfigurationen und ähnlichen Backbone-Architekturen. Die Leistung wird entlang mehrerer Achsen evaluiert, darunter Generierungsqualität, Robustheit gegenüber Inferenzkonfigurationen, Skalierbarkeit, Anpassung an sowohl textbasierte als auch zeitlich ausgerichtete Bedingungen sowie Bearbeitungsfähigkeiten in Form von Audio-Inpainting. Diese vergleichende Studie beleuchtet die unterschiedlichen Stärken und Schwächen jedes Paradigmas und bietet praktische Erkenntnisse, die zukünftige architektonische und Trainingsentscheidungen im sich wandelnden Bereich der Text-zu-Musik-Generierung beeinflussen können. Audiosamples sind unter folgender URL verfügbar: https://huggingface.co/spaces/ortal1602/ARvsFM


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Auto-Regressiv vs. Flow-Matching: Eine vergleichende Studie der Modellierungsparadigmen für die Text-zu-Musik-Generierung | Paper | HyperAI