HyperAIHyperAI

Command Palette

Search for a command to run...

GTSinger Gesangs-Audiodatensatz

Datum

vor einem Jahr

Größe

28.94 GB

Organisation

Zhejiang-Universität

Veröffentlichungs-URL

github.com

Paper-URL

arxiv.org

Bei diesem Datensatz handelt es sich um einen globalen, multifunktionalen, groß angelegten Open-Source-Gesangsdatensatz in hoher Qualität, der 2024 von einem Forschungsteam der Zhejiang-Universität veröffentlicht wurde. Die relevanten Ergebnisse des Papiers lauten:GTSinger: Ein globales Multi-Technik-Gesangskorpus mit realistischen Musikpartituren für alle Gesangsaufgaben", wurde als Spotlight im NeurIPS 2024 Datasets and Benchmarks Track angenommen.

Der Datensatz enthält 80,59 Stunden Gesang, der in professionellen Studios aufgenommen wurde. Diese Lieder werden von 20 professionellen Sängern gesungen und decken 9 verschiedene Sprachen ab, darunter Chinesisch, Englisch, Japanisch, Koreanisch usw., wodurch den Forschern eine Ressourcenbibliothek mit äußerst reichen Klangfarben und Stilen zur Verfügung steht. Besonders erwähnenswert ist, dass GTSinger bei der Entwicklung besonderes Augenmerk auf die Steuerung und Modellierung von Gesangstechniken gelegt und Kontrollgruppen sowie Anmerkungen auf Phonemebene für sechs häufig verwendete Gesangstechniken bereitgestellt hat, was ihm bei Aufgaben wie der Gesangssynthese und der Technikerkennung einzigartige Vorteile verschafft.

Ein weiteres bemerkenswertes Merkmal von GTSinger besteht darin, dass es echte Partituren liefert, die zum Gesang passen. Dies ist bei der eigentlichen Musikkreation sehr nützlich, da es sich von detaillierten Partituren wie MIDI unterscheidet und näher am eigentlichen Kompositionsprozess liegt. Die Struktur des Datensatzes ist sehr übersichtlich gestaltet. Jeder Ordner der obersten Ebene entspricht einer anderen Sprache und jeder Sprachordner ist weiter in 5 Unterordner unterteilt, die bestimmte Gesangstechniken darstellen. Darüber hinaus ist die Audioqualität von GTSinger sehr hoch. Der gesamte Gesang und die Sprache werden im WAV-Format mit einer Abtastrate von 48 kHz und einer Auflösung von 24 Bit aufgezeichnet. Außerdem werden detaillierte Ausrichtungs- und Anmerkungsinformationen in TextGrid-Dateien bereitgestellt.

Der GTSinger-Datensatz zeichnet sich nicht nur durch Datenumfang und -qualität aus, sondern unterstützt auch eine Vielzahl von Gesangsaufgaben, darunter Gesangssynthese, Fähigkeitserkennung, Stilübertragung und Umwandlung von Sprache in Gesang, und kann an mehrere Aufgaben angepasst werden.

Die Komposition jedes Songs in GTSinger. Beinhaltet Gesänge für die Geschicklichkeitsgruppe, Gesänge für die Kontrollgruppe, Audio und Anmerkungen zum gemeinsamen Lesen.

GTSinger.torrent
Seeding 0Herunterladen 1Abgeschlossen 254Gesamtdownloads 371
  • GTSinger/
    • README.md
      2.42 KB
    • README.txt
      4.84 KB
      • data/
        • GTSinger.zip
          28.94 GB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
GTSinger Gesangs-Audiodatensatz | Datensätze | HyperAI