5ヶ月前

概要

近年、マルチモーダル大規模言語モデル（MLLM）の進展により、視覚・言語タスクにおいて優れた性能が示されている。しかし、マルチモーダルな記号音楽領域における推論能力については、依然としてほとんど研究がなされていない。本研究では、実世界の音楽譜を対象とした、初めてのマルチモーダル記号音楽推論・分析ベンチマーク「WildScore」を提案する。このベンチマークは、MLLMが現実の音楽譜を解釈し、複雑な音楽学的質問に答える能力を評価することを目的として設計された。WildScoreの各インスタンスは、実際の音楽作品から抽出され、それに伴って本物のユーザーが生成した質問や議論も付随しており、実践的な音楽分析の複雑さを忠実に再現している。体系的な評価を可能にするために、高レベルおよび細分化された音楽学的オントロジーからなる体系的な分類体系を提案する。さらに、複雑な音楽推論を複数選択式の質問回答問題として定式化することで、MLLMの記号音楽理解能力を制御可能かつスケーラブルに評価できるようにしている。最先端のMLLMをWildScore上で実証的に評価した結果、視覚的・記号的推論における興味深いパターンが明らかになり、記号音楽の推論・分析においてMLLMが示す有望な方向性と、依然として克服すべき課題が明らかになった。本研究では、データセットとコードを公開する。

ソースPDF