Command Palette
Search for a command to run...
WildScore : Évaluation des MLLM en raisonnement musical symbolique dans des conditions réelles
Gagan Mundada Yash Vishe Amit Namburi Xin Xu Zachary Novack Julian McAuley Junda Wu

Résumé
Les avancées récentes des modèles linguistiques à grande échelle multimodaux (MLLM) ont démontré des capacités impressionnantes dans diverses tâches vision-langage. Toutefois, leurs capacités de raisonnement dans le domaine multimodal des partitions musicales symboliques restent largement inexplorées. Nous introduisons WildScore, le premier benchmark de raisonnement et d'analyse multimodaux sur partitions musicales symboliques dans des contextes réels, conçu pour évaluer la capacité des MLLM à interpréter des partitions musicales du monde réel et à répondre à des questions complexes en musicologie. Chaque instance de WildScore provient de compositions musicales authentiques, accompagnée de questions et de discussions générées par des utilisateurs réels, capturant ainsi la complexité de l'analyse musicale pratique. Pour faciliter une évaluation systématique, nous proposons une taxonomie structurée, comprenant à la fois des ontologies musicologiques de haut niveau et des ontologies fine-grained. En outre, nous formulons le raisonnement musical complexe sous la forme de questions à choix multiples, permettant une évaluation contrôlée et évolutif de la compréhension symbolique de la musique par les MLLM. Les tests empiriques effectués sur les MLLM les plus avancés sur WildScore révèlent des motifs intéressants dans leur raisonnement visuel-symbolique, mettant en lumière à la fois des perspectives prometteuses et des défis persistants pour les MLLM en matière de raisonnement et d'analyse des partitions musicales symboliques. Nous mettons à disposition le jeu de données et le code source.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.