HyperAIHyperAI

Command Palette

Search for a command to run...

音声、テキスト、および画像を用いた深層特徴による多ラベル音楽ジャンル分類

Sergio Oramas Oriol Nieto Francesco Barbieri Xavier Serra

概要

音楽ジャンルは、共通の特性を持つ音楽アイテムを分類するための手段を提供します。これらのカテゴリーが互いに排他的ではないにもかかわらず、関連する研究の多くは伝統的に単一のクラスへの分類に焦点を当てています。さらに、これらのカテゴリー(例:ポップ、ロック)は特定のアプリケーションにとってあまりにも広範すぎる傾向があります。本研究では、このタスクを拡張し、オーディオ、テキスト、画像という3つの異なるデータモダリティを使用して音楽アイテムを複数かつ詳細なラベルに分類することを目指しています。そのために、250のジャンルクラスに分類された31,000以上のアルバムを含む新しいデータセット「MuMu」を紹介します。各アルバムについて、ジャケット画像、テキストレビュー、オーディオトラックを集めました。また、最先端の深層学習手法で学習した特徴埋め込みの組み合わせに基づく多ラベルジャンル分類アプローチも提案しています。実験結果はモダリティ間での大きな違いを示しており、これにより多ラベルジャンル分類における新たな基準が導入されるとともに、それらを組み合わせることで結果が向上することが示唆されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています