HyperAI

AISHELL-4 Mehrkanal-Rededatenbank Für Chinesische Konferenzen

Datum

vor einem Jahr

Größe

48.38 GB

Organisation

Veröffentlichungs-URL

www.aishelltech.com

AISHELL-4 ist ein umfangreicher Datensatz realer Mandarin-Sprachaufzeichnungen, der von einem 8-Kanal-Rundmikrofon-Array zur Sprachverarbeitung in Konferenzszenarien erfasst wurde.Der Datensatz besteht aus 211 aufgezeichneten Konferenzsitzungen mit jeweils 4 bis 8 Sprechern und einer Gesamtdauer von 120 Stunden.Dieser Datensatz zielt darauf ab, fortgeschrittene Forschung und praktische Anwendungsszenarien der Mehrsprecherverarbeitung aus drei Blickwinkeln zu kombinieren. AISHELL-4 verwendet aufgezeichnete Konferenzen aus echten Quellen und bietet realistische akustische Effekte und natürliche Sprachfunktionen in Gesprächen, wie z. B. kurze Pausen, Sprachüberlappungen, schnelle Sprecherwechsel, Lärm usw. Gleichzeitig werden für jedes Meeting in AISHELL eine genaue Transkription und Sprecher-Stimmaktivität bereitgestellt. Auf diese Weise können Forscher verschiedene Aspekte der Konferenzverarbeitung untersuchen, von einzelnen Aufgaben wie Sprach-Frontend-Verarbeitung, Spracherkennung und Sprecherdiarisierung bis hin zur multimodalen Modellierung und gemeinsamen Optimierung verwandter Aufgaben. Das Forschungsteam hat außerdem ein auf PyTorch basierendes Trainings- und Evaluierungsframework als Basissystem veröffentlicht, um reproduzierbare Forschung in diesem Bereich zu fördern.

AISHELL-4.torrent
Seeding 1Herunterladen 2Abgeschlossen 106Gesamtdownloads 303
  • AISHELL-4/
    • README.md
      1.68 KB
    • README.txt
      3.36 KB
      • data/
        • AISHELL-4.zip
          48.38 GB