HyperAI超神経
18日前

SonicVerse: 音楽特徴を活用した多タスク学習によるキャプショニング

Chopra, Anuradha ; Roy, Abhinaba ; Herremans, Dorien
SonicVerse: 音楽特徴を活用した多タスク学習によるキャプショニング
要約

音楽作品の特性を正確に反映した詳細なキャプションは、音楽データベースを豊かにし、音楽AIの研究を推進することができます。本論文では、低レベルの音響的詳細と高レベルの音楽的属性を直接捉えるために、キーディテクションやボーカルデイテクションなどの補助的な音楽特徴検出タスクとキャプション生成を統合したマルチタスク音楽キャプションモデル「ソニックバース」(SonicVerse) を紹介します。主要な貢献点は、オーディオ入力を言語トークンに変換する一方で、専用の補助ヘッドを通じて音楽特徴を検出する投影ベースのアーキテクチャです。これらのヘッドからの出力も言語トークンに投影され、キャプション生成の入力を強化します。このフレームワークは、短い音楽断片に対して豊かで説明的なキャプションを生成するだけでなく、大規模言語モデルを使用して出力を連鎖させることにより、長い音楽作品に対する時間情報を含む詳細な説明の生成も直接可能にします。モデルの学習のために、モジュール式音楽特徴抽出器であるMIRFLEXを使用してMusicBenchデータセットに音楽特徴を注釈付けし、オーディオ、キャプションおよび音楽特徴データのペアを作成しました。実験結果は、このような方法で特徴を取り込むことで生成されたキャプションの品質と詳細度が向上することを示しています。