HyperAIHyperAI

Command Palette

Search for a command to run...

Musikverstehender LLaMA: Fortschritte in der Text-zu-Musik-Generierung durch Fragebeantwortung und Beschreibung

Shansong Liu Atin Sakkeer Hussain Chenshuo Sun Ying Shan

Zusammenfassung

Die Text-to-Music-Generierung (T2M-Gen) steht vor einer großen Herausforderung aufgrund der Knappheit umfangreicher, öffentlich zugänglicher Musikdatensätze mit natürlichsprachlichen Beschriftungen. Um dieses Problem zu lösen, schlagen wir das Music Understanding LLaMA (MU-LLaMA) vor, ein Modell, das in der Lage ist, musikalische Fragen zu beantworten und Beschriftungen für Musikdateien zu generieren. Unser Modell nutzt Audiodarstellungen aus einem vortrainierten MERT-Modell zur Extraktion von Musikmerkmalen. Dennoch bleibt die Beschaffung eines geeigneten Datensatzes für die Ausbildung des MU-LLaMA-Modells schwierig, da bestehende öffentlich zugängliche Audifragen-Datensätze die notwendige Tiefe für offene musikalische Fragen nicht bieten. Um diese Lücke zu schließen, präsentieren wir eine Methodik zur Generierung von Frage-Antwort-Paaren aus bestehenden Audio-Beschriftungsdatensätzen und führen den MusicQA-Datensatz ein, der speziell für die Beantwortung offener musikalischer Fragen entwickelt wurde. Die Experimente zeigen, dass das vorgeschlagene MU-LLaMA-Modell, das auf unserem MusicQA-Datensatz trainiert wurde, in beiden Bereichen – der Beantwortung musikalischer Fragen und der Generierung von Musikbeschriftungen – ausgezeichnete Leistungen erbringt und bei verschiedenen Metriken die aktuellen besten (SOTA) Modelle übertrifft. Dies bietet einen vielversprechenden Fortschritt im Forschungsfeld der T2M-Gen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Musikverstehender LLaMA: Fortschritte in der Text-zu-Musik-Generierung durch Fragebeantwortung und Beschreibung | Paper | HyperAI