HyperAI超神经

GTSinger 歌声音频数据集

该数据集是由浙江大学的研究团队于 2024 年发布的全球化、多技巧的大型开源高质量歌声数据集,相关论文成果为「GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks」,已被 NeurIPS 2024 Datasets and Benchmarks Track 接收为 Spotlight 。

数据集包含了 80.59 小时的专业录音棚录制的歌声,这些歌声由 20 位专业歌手演唱,覆盖了 9 种不同的语言,包括汉语、英语、日语、韩语等,为研究者提供了一个音色和风格极为丰富的资源库。特别值得一提的是,GTSinger 在设计时特别关注了歌唱技巧的控制和建模,提供了 6 种常用歌唱技巧的对照组和音素级标注,这使得它在歌声合成、技巧识别等任务上具有独特的优势。

GTSinger 的另一个显著特点是它提供了与歌声相匹配的真实乐谱,这在实际音乐创作中非常有用,因为它与 MIDI 等精细乐谱不同,更接近于实际的作曲过程。数据集的结构设计得非常清晰,每个顶级文件夹对应不同的语言,每个语言文件夹下又细分为 5 个子文件夹,分别代表特定的歌唱技巧。此外,GTSinger 的音频质量非常高,所有的歌声和语音都以 48kHz 的采样率和 24 位的分辨率录制于 WAV 格式,并且提供了详细的 TextGrid 文件中的对齐和标注信息。

GTSinger 数据集不仅在数据规模和质量上表现出色,它还支持多种歌声任务,包括歌声合成、技巧识别、风格迁移和语音到歌声的转换,可以适配多任务。

GTSinger 中每首歌曲的构成。包括技巧组歌声、控制组歌声、配对朗读的音频和标注。

GTSinger.torrent
做种 1正在下载 0已完成 47总下载次数 112
  • GTSinger/
    • README.md
      2.42 KB
    • README.txt
      4.84 KB
      • data/
        • GTSinger.zip
          28.94 GB