7ヶ月前

マルチモーダル

マルチモーダル表現

ディープラーニング

マルチモーダル

Sergio Oramas Oriol Nieto Francesco Barbieri Xavier Serra

概要

音楽ジャンルは、共通の特性を持つ音楽アイテムを分類するための手段を提供します。これらのカテゴリーが互いに排他的ではないにもかかわらず、関連する研究の多くは伝統的に単一のクラスへの分類に焦点を当てています。さらに、これらのカテゴリー（例：ポップ、ロック）は特定のアプリケーションにとってあまりにも広範すぎる傾向があります。本研究では、このタスクを拡張し、オーディオ、テキスト、画像という3つの異なるデータモダリティを使用して音楽アイテムを複数かつ詳細なラベルに分類することを目指しています。そのために、250のジャンルクラスに分類された31,000以上のアルバムを含む新しいデータセット「MuMu」を紹介します。各アルバムについて、ジャケット画像、テキストレビュー、オーディオトラックを集めました。また、最先端の深層学習手法で学習した特徴埋め込みの組み合わせに基づく多ラベルジャンル分類アプローチも提案しています。実験結果はモダリティ間での大きな違いを示しており、これにより多ラベルジャンル分類における新たな基準が導入されるとともに、それらを組み合わせることで結果が向上することが示唆されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

マルチモーダル

マルチモーダル表現

ディープラーニング

マルチモーダル

Sergio Oramas Oriol Nieto Francesco Barbieri Xavier Serra

概要

音楽ジャンルは、共通の特性を持つ音楽アイテムを分類するための手段を提供します。これらのカテゴリーが互いに排他的ではないにもかかわらず、関連する研究の多くは伝統的に単一のクラスへの分類に焦点を当てています。さらに、これらのカテゴリー（例：ポップ、ロック）は特定のアプリケーションにとってあまりにも広範すぎる傾向があります。本研究では、このタスクを拡張し、オーディオ、テキスト、画像という3つの異なるデータモダリティを使用して音楽アイテムを複数かつ詳細なラベルに分類することを目指しています。そのために、250のジャンルクラスに分類された31,000以上のアルバムを含む新しいデータセット「MuMu」を紹介します。各アルバムについて、ジャケット画像、テキストレビュー、オーディオトラックを集めました。また、最先端の深層学習手法で学習した特徴埋め込みの組み合わせに基づく多ラベルジャンル分類アプローチも提案しています。実験結果はモダリティ間での大きな違いを示しており、これにより多ラベルジャンル分類における新たな基準が導入されるとともに、それらを組み合わせることで結果が向上することが示唆されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

音声、テキスト、および画像を用いた深層特徴による多ラベル音楽ジャンル分類 | 記事 | HyperAI超神経