Command Palette
Search for a command to run...
WildScore: Benchmarking MLLMs im „Wilden“ der symbolischen Musik-Reasoning-Aufgaben
Gagan Mundada Yash Vishe Amit Namburi Xin Xu Zachary Novack Julian McAuley Junda Wu

Abstract
Neuere Fortschritte bei multimodalen großen Sprachmodellen (Multimodal Large Language Models, MLLMs) haben beeindruckende Fähigkeiten bei verschiedenen visuell-sprachlichen Aufgaben gezeigt. Ihre Schlussfolgerungsfähigkeiten im multimodalen symbolischen Musikbereich bleiben jedoch weitgehend unerforscht. Wir stellen WildScore vor, die erste in-the-wild-Benchmark für multimodale symbolische Musik-Reasoning und -Analyse, die entwickelt wurde, um die Fähigkeit von MLLMs zur Interpretation realweltlicher Musiknoten und zur Beantwortung komplexer musikwissenschaftlicher Fragen zu evaluieren. Jeder Eintrag in WildScore stammt aus echten musikalischen Kompositionen und wird von authentischen, nutzererzeugten Fragen und Diskussionen begleitet, wodurch die Feinheiten der praktischen Musikanalyse adäquat erfasst werden. Um eine systematische Evaluation zu ermöglichen, schlagen wir eine systematische Taxonomie vor, die sowohl hochrangige als auch fein granulierte musikwissenschaftliche Ontologien umfasst. Zudem formulieren wir komplexes Musik-Reasoning als Multiple-Choice-Fragebogen-Aufgabenstellung, was eine kontrollierte und skalierbare Bewertung des symbolischen Musikverständnisses von MLLMs ermöglicht. Empirische Benchmarking-Tests von führenden MLLMs auf WildScore offenbaren interessante Muster im visuell-symbolischen Schlussfolgern und decken sowohl vielversprechende Ansatzpunkte als auch anhaltende Herausforderungen für MLLMs im Bereich symbolischer Musik-Reasoning und -Analyse auf. Wir veröffentlichen die Datensammlung und den Quellcode.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.