GTZAN音楽ジャンル分類データセット
GTZAN データセットは、機械リスニング音楽ジャンル認識 (MGR) 研究で最も一般的に使用される公開データセットです。ファイルは、個人の CD、ラジオ放送、マイク録音などのさまざまなソースから 2000 年から 2001 年にかけて収集されました。
GTZAN データセットは、音楽情報の検索、音楽分類、その他の音楽関連タスクに広く使用されている標準データセットです。 10 の異なるジャンルからの 1000 の音楽サンプルが含まれており、各ジャンルには 100 のサンプルが含まれています。これらのオーディオ サンプルは長さが 30 秒で、22050 Hz でサンプリングされ、16 ビットのモノラル .wav 形式で保存されます。このデータセットはもともと Marsyas 音楽情報検索ツールキットによって作成され、音楽分類アルゴリズムのパフォーマンスを評価するために広く使用されています。
データセットには以下が含まれます。
- オリジナルジャンル– 10 ジャンルのコレクション (それぞれ 100 個のオーディオ ファイル、長さはすべて 30 秒) (有名な GTZAN データセット、サウンドの MNIST)
- 元の画像– 各オーディオファイルの視覚的表現。データを分類する 1 つの方法は、ニューラル ネットワークを使用することです。 NN (今日使用する CNN など) は通常、ある種の画像表現を使用するため、これを実現するために音声ファイルがメル スペクトログラムに変換されます。
- 2つのCSVファイル– オーディオファイルの特徴が含まれています。 1 つのファイルには、オーディオ ファイルから抽出できる複数の特徴から計算された各曲 (30 秒) の平均と分散が含まれています。同じ構造を持つ別のファイルですが、曲が以前は 3 秒のオーディオ ファイルに分割されていました。
GTZAN.torrent
シーディング 1ダウンロード中 1ダウンロード完了 150総ダウンロード数 395