HyperAI超神经

Bei diesem Datensatz handelt es sich um einen globalen, multifunktionalen, groß angelegten Open-Source-Gesangsdatensatz in hoher Qualität, der 2024 von einem Forschungsteam der Zhejiang-Universität veröffentlicht wurde. Die relevanten Ergebnisse des Papiers lauten:GTSinger: Ein globales Multi-Technik-Gesangskorpus mit realistischen Musikpartituren für alle Gesangsaufgaben", wurde als Spotlight im NeurIPS 2024 Datasets and Benchmarks Track angenommen.

Der Datensatz enthält 80,59 Stunden Gesang, der in professionellen Studios aufgenommen wurde. Diese Lieder werden von 20 professionellen Sängern gesungen und decken 9 verschiedene Sprachen ab, darunter Chinesisch, Englisch, Japanisch, Koreanisch usw., wodurch den Forschern eine Ressourcenbibliothek mit äußerst reichen Klangfarben und Stilen zur Verfügung steht. Besonders erwähnenswert ist, dass GTSinger bei der Entwicklung besonderes Augenmerk auf die Steuerung und Modellierung von Gesangstechniken gelegt und Kontrollgruppen sowie Anmerkungen auf Phonemebene für sechs häufig verwendete Gesangstechniken bereitgestellt hat, was ihm bei Aufgaben wie der Gesangssynthese und der Technikerkennung einzigartige Vorteile verschafft.

Ein weiteres bemerkenswertes Merkmal von GTSinger besteht darin, dass es echte Partituren liefert, die zum Gesang passen. Dies ist bei der eigentlichen Musikkreation sehr nützlich, da es sich von detaillierten Partituren wie MIDI unterscheidet und näher am eigentlichen Kompositionsprozess liegt. Die Struktur des Datensatzes ist sehr übersichtlich gestaltet. Jeder Ordner der obersten Ebene entspricht einer anderen Sprache und jeder Sprachordner ist weiter in 5 Unterordner unterteilt, die bestimmte Gesangstechniken darstellen. Darüber hinaus ist die Audioqualität von GTSinger sehr hoch. Der gesamte Gesang und die Sprache werden im WAV-Format mit einer Abtastrate von 48 kHz und einer Auflösung von 24 Bit aufgezeichnet. Außerdem werden detaillierte Ausrichtungs- und Anmerkungsinformationen in TextGrid-Dateien bereitgestellt.

Der GTSinger-Datensatz zeichnet sich nicht nur durch Datenumfang und -qualität aus, sondern unterstützt auch eine Vielzahl von Gesangsaufgaben, darunter Gesangssynthese, Fähigkeitserkennung, Stilübertragung und Umwandlung von Sprache in Gesang, und kann an mehrere Aufgaben angepasst werden.

GTSinger Gesangs-Audiodatensatz