2ヶ月前
音楽理解LLaMA: 質問応答とキャプション生成を用いたテキストから音楽の生成の進歩
Liu, Shansong ; Hussain, Atin Sakkeer ; Sun, Chenshuo ; Shan, Ying

要約
テキストから音楽生成(Text-to-Music Generation, T2M-Gen)は、大規模で公開されている自然言語のキャプション付き音楽データセットが不足しているという大きな障壁に直面しています。この問題を解決するために、当研究ではミュージック・アンダースタンディング・LLaMA(Music Understanding LLaMA, MU-LLaMA)を提案します。このモデルは、音楽関連の質問に答えたり、音楽ファイルのキャプションを生成したりする能力を持っています。当モデルは、事前学習されたMERTモデルからのオーディオ表現を利用し、音楽特徴を抽出します。しかし、MU-LLaMAモデルの訓練に適したデータセットを得ることは依然として困難であり、既存の公開可能なオーディオ質問応答データセットにはオープンエンドな音楽質問応答に必要な深さが欠けています。このギャップを埋めるため、当研究では既存のオーディオキャプションデータセットから質問回答ペアを生成する手法を提示し、オープンエンドな音楽関連質問への回答を目的としたMusicQAデータセットを導入します。実験結果は、当研究で設計したMusicQAデータセットで訓練されたMU-LLaMAモデルが、様々な評価指標において音楽質問応答と音楽キャプション生成の両方で優れた性能を達成し、両分野における現行の最先端(State-of-the-Art, SOTA)モデルを超える性能を示し、T2M-Gen研究分野での有望な進歩をもたらすことを示しています。