HyperAIHyperAI
vor 2 Monaten

Musikverstehender LLaMA: Fortschritte in der Text-zu-Musik-Generierung durch Fragebeantwortung und Beschreibung

Liu, Shansong ; Hussain, Atin Sakkeer ; Sun, Chenshuo ; Shan, Ying
Musikverstehender LLaMA: Fortschritte in der Text-zu-Musik-Generierung durch
Fragebeantwortung und Beschreibung
Abstract

Die Text-to-Music-Generierung (T2M-Gen) steht vor einer großen Herausforderung aufgrund der Knappheit umfangreicher, öffentlich zugänglicher Musikdatensätze mit natürlichsprachlichen Beschriftungen. Um dieses Problem zu lösen, schlagen wir das Music Understanding LLaMA (MU-LLaMA) vor, ein Modell, das in der Lage ist, musikalische Fragen zu beantworten und Beschriftungen für Musikdateien zu generieren. Unser Modell nutzt Audiodarstellungen aus einem vortrainierten MERT-Modell zur Extraktion von Musikmerkmalen. Dennoch bleibt die Beschaffung eines geeigneten Datensatzes für die Ausbildung des MU-LLaMA-Modells schwierig, da bestehende öffentlich zugängliche Audifragen-Datensätze die notwendige Tiefe für offene musikalische Fragen nicht bieten. Um diese Lücke zu schließen, präsentieren wir eine Methodik zur Generierung von Frage-Antwort-Paaren aus bestehenden Audio-Beschriftungsdatensätzen und führen den MusicQA-Datensatz ein, der speziell für die Beantwortung offener musikalischer Fragen entwickelt wurde. Die Experimente zeigen, dass das vorgeschlagene MU-LLaMA-Modell, das auf unserem MusicQA-Datensatz trainiert wurde, in beiden Bereichen – der Beantwortung musikalischer Fragen und der Generierung von Musikbeschriftungen – ausgezeichnete Leistungen erbringt und bei verschiedenen Metriken die aktuellen besten (SOTA) Modelle übertrifft. Dies bietet einen vielversprechenden Fortschritt im Forschungsfeld der T2M-Gen.

Musikverstehender LLaMA: Fortschritte in der Text-zu-Musik-Generierung durch Fragebeantwortung und Beschreibung | Neueste Forschungsarbeiten | HyperAI