2ヶ月前
音声、テキスト、および画像を用いた深層特徴による多ラベル音楽ジャンル分類
Sergio Oramas; Oriol Nieto; Francesco Barbieri; Xavier Serra

要約
音楽ジャンルは、共通の特性を持つ音楽アイテムを分類するための手段を提供します。これらのカテゴリーが互いに排他的ではないにもかかわらず、関連する研究の多くは伝統的に単一のクラスへの分類に焦点を当てています。さらに、これらのカテゴリー(例:ポップ、ロック)は特定のアプリケーションにとってあまりにも広範すぎる傾向があります。本研究では、このタスクを拡張し、オーディオ、テキスト、画像という3つの異なるデータモダリティを使用して音楽アイテムを複数かつ詳細なラベルに分類することを目指しています。そのために、250のジャンルクラスに分類された31,000以上のアルバムを含む新しいデータセット「MuMu」を紹介します。各アルバムについて、ジャケット画像、テキストレビュー、オーディオトラックを集めました。また、最先端の深層学習手法で学習した特徴埋め込みの組み合わせに基づく多ラベルジャンル分類アプローチも提案しています。実験結果はモダリティ間での大きな違いを示しており、これにより多ラベルジャンル分類における新たな基準が導入されるとともに、それらを組み合わせることで結果が向上することが示唆されています。