日付

2年前

サイズ

28.94 GB

データセット構成

公開URL

github.com

Paper URL

arxiv.org

タグ

音声認識

このデータセットは、2024 年に浙江大学の研究チームによってリリースされた、グローバルでマルチ技術の大規模なオープンソースの高品質歌唱データセットです。関連する論文結果は「GTSinger: すべての歌唱タスクのリアルな楽譜を備えたグローバルなマルチテクニック歌唱コーパス」が、NeurIPS 2024 Datasets and Benchmarks Track の Spotlight として承認されました。このデータセットには、プロのレコーディングスタジオで録音された 20 人のプロの歌手によって歌われた 80.59 時間の歌声が含まれており、中国語、英語、日本語、韓国語などを含む 9 つの異なる言語をカバーしており、研究者に音色とスタイルを提供する非常に豊富なリソースライブラリです。特に注目すべき点は、GTSinger が設計時に歌唱スキルの制御とモデリングに特別な注意を払っており、一般的に使用される 6 つの歌唱スキルに対して制御グループと音素レベルの注釈を提供していることです。これにより、歌声合成やスキルなどのタスクに役立ちます。ユニークな利点。 GTSingerのもう一つの大きな特徴は、歌声に合わせたリアルな楽譜を提供することで、MIDIなどの細かい楽譜とは異なり、実際の作曲過程に近いため、実際の音楽制作に非常に役立ちます。データセットの構造は非常に明確に設計されており、各トップレベルフォルダーは異なる言語に対応しており、各言語フォルダーは特定の歌唱スキルを表す 5 つのサブフォルダーに分割されています。さらに、GTSinger のオーディオ品質は非常に高く、すべての歌と音声は 48 kHz のサンプリングレートと 24 ビットの解像度で WAV 形式で記録され、TextGrid ファイルで詳細な位置合わせと注釈情報が提供されます。 GTSinger データセットは、データの規模と品質の点で優れたパフォーマンスを発揮するだけでなく、歌声合成、テクニック認識、スタイル転送、音声から歌声への変換など、さまざまな歌唱タスクもサポートしており、さまざまな用途に適応できます。タスク。