GTZAN 음악 장르 분류 데이터 세트
GTZAN 데이터 세트는 기계 청취를 통한 음악 장르 인식(MGR) 연구에 가장 일반적으로 사용되는 공개 데이터 세트입니다. 이 파일은 개인 CD, 라디오, 마이크 녹음 등 다양한 출처에서 2000~2001년에 수집되었습니다.
GTZAN 데이터 세트는 음악 정보 검색, 음악 분류 및 기타 음악 관련 작업에 널리 사용되는 표준 데이터 세트입니다. 여기에는 10가지 장르의 1000개 음악 샘플이 포함되어 있으며, 각 장르에서 100개씩 샘플이 들어 있습니다. 이 오디오 샘플은 길이가 30초이고, 22050Hz로 샘플링되었으며, 16비트 모노 .wav 포맷으로 저장되었습니다. 이 데이터 세트는 원래 Marsyas Music Information Retrieval Toolkit에 의해 만들어졌으며 음악 분류 알고리즘의 성능을 평가하는 데 널리 사용됩니다.
데이터 세트에는 다음이 포함됩니다.
- 오리지널 장르– 각각 30초 길이의 100개 오디오 파일을 포함하는 10개 장르의 컬렉션(유명한 GTZAN 데이터 세트, 사운드의 경우 MNIST)
- 원본 이미지– 각 오디오 파일의 시각적 표현. 데이터를 분류하는 한 가지 방법은 신경망을 이용하는 것입니다. NN(오늘 사용할 CNN과 같은)은 일반적으로 어떤 종류의 이미지 표현을 가정하므로, 이를 달성하기 위해 오디오 파일을 멜라닌 스펙트로그램으로 변환합니다.
- 2개의 CSV 파일– 오디오 파일의 특성을 담고 있습니다. 한 파일에는 각 노래(30초 길이)의 평균과 분산이 포함되어 있으며, 이는 오디오 파일에서 추출할 수 있는 여러 기능을 사용하여 계산됩니다. 다른 파일도 구조는 동일하지만, 노래가 3초 분량의 오디오 파일로 나뉩니다.
GTZAN.torrent
시딩 2다운로드 중 1완료됨 187총 다운로드 횟수 445