GTZAN 音乐流派分类数据集

日期

6 个月前

大小

1.21 GB

机构

Kaggle

发布地址

www.kaggle.com

GTZAN 数据集是机器聆听音乐流派识别 (MGR) 研究中最常用的公共数据集。这些文件是在 2000-2001 年从各种来源(包括个人 CD 、广播、麦克风录音)收集的。

GTZAN 数据集是一个广泛用于音乐信息检索、音乐分类和其他音乐相关任务的标准数据集。它包含了 1000 个来自 10 个不同类型的音乐样本,每个类型包含 100 个样本。这些音频样本的长度为 30 秒,采样率为 22050 Hz,以 16 位单声道 .wav 格式存储。这个数据集最初由 Marsyas 音乐信息检索工具包创建,并被广泛用于评估音乐分类算法的性能。

数据集包含:

  • 原始流派– 10 个流派的集合,每个流派有 100 个音频文件,所有长度均为 30 秒(著名的 GTZAN 数据集,声音的 MNIST)
  • 原始图像– 每个音频文件的视觉表示。对数据进行分类的一种方法是通过神经网络。由于 NN(如我们今天将要使用的 CNN)通常采用某种图像表示,因此音频文件被转换为梅尔频谱图以实现这一点。
  • 2 个 CSV 文件– 包含音频文件的特征。一个文件包含每首歌曲(30 秒长)的平均值和方差,这些平均值和方差是通过可从音频文件中提取的多个特征计算得出的。另一个文件具有相同的结构,但歌曲之前被分成 3 秒的音频文件
GTZAN.torrent

做种 3

下载中 0

已完成 48

总下载 199

  • GTZAN/
    • README.md
      2.13 KB
    • README.txt
      4.26 KB
      • data/
        • 1.zip
          1.21 GB