GTSinger 노래 오디오 데이터 세트
이 데이터 세트는 저장대학교 연구팀이 2024년에 공개한 글로벌, 다중 기술, 대규모 오픈소스 고품질 노래 데이터 세트입니다. 관련 논문 결과는 "GTSinger: 모든 노래 과제를 위한 사실적인 악보를 제공하는 글로벌 멀티테크닉 노래 코퍼스", NeurIPS 2024 데이터세트 및 벤치마크 트랙의 주목 대상으로 선정되었습니다.
이 데이터 세트에는 전문 가수 20명이 중국어, 영어, 일본어, 한국어 등 9개 언어로 전문 스튜디오에서 녹음한 80.59시간 분량의 노래가 포함되어 있어 연구자들에게 매우 풍부한 음색과 스타일을 갖춘 리소스 라이브러리를 제공합니다. 특히 GTSinger는 설계 과정에서 노래 기법의 제어와 모델링에 특별한 주의를 기울여, 흔히 사용되는 6가지 노래 기법에 대한 제어 그룹과 음소 수준 주석을 제공했다는 점이 주목할 만합니다. 이를 통해 노래 합성 및 기법 인식과 같은 작업에서 독보적인 이점을 얻을 수 있습니다.
GTSinger의 또 다른 주목할 만한 특징은 노래에 맞는 실제 악보를 제공한다는 것입니다. 이는 MIDI와 같은 세부적인 악보와 달리 실제 작곡 과정에 더 가깝기 때문에 실제 음악 제작에 매우 유용합니다. 데이터 세트의 구조는 매우 명확하게 설계되었습니다. 각 최상위 폴더는 다른 언어에 해당하며, 각 언어 폴더는 특정 노래 기법을 나타내는 5개의 하위 폴더로 더 나뉩니다. 게다가 GTSinger의 오디오 품질은 매우 높습니다. 모든 노래와 연설은 48kHz 샘플링 속도와 24비트 해상도의 WAV 포맷으로 녹음되며, TextGrid 파일에 자세한 정렬 및 주석 정보가 제공됩니다.
GTSinger 데이터 세트는 데이터 규모와 품질 면에서 우수할 뿐만 아니라, 노래 합성, 기술 인식, 스타일 전환, 음성-노래 변환 등 다양한 노래 작업을 지원하고 여러 작업에 맞게 조정할 수 있습니다.
