AISHELL-4 Mehrkanal-Rededatenbank Für Chinesische Konferenzen
Datum
Größe
Veröffentlichungs-URL
Tags
Kategorien
AISHELL-4 ist ein umfangreicher Datensatz realer Mandarin-Sprachaufzeichnungen, der von einem 8-Kanal-Rundmikrofon-Array zur Sprachverarbeitung in Konferenzszenarien erfasst wurde.Der Datensatz besteht aus 211 aufgezeichneten Konferenzsitzungen mit jeweils 4 bis 8 Sprechern und einer Gesamtdauer von 120 Stunden.Dieser Datensatz zielt darauf ab, fortgeschrittene Forschung und praktische Anwendungsszenarien der Mehrsprecherverarbeitung aus drei Blickwinkeln zu kombinieren. AISHELL-4 verwendet aufgezeichnete Konferenzen aus echten Quellen und bietet realistische akustische Effekte und natürliche Sprachfunktionen in Gesprächen, wie z. B. kurze Pausen, Sprachüberlappungen, schnelle Sprecherwechsel, Lärm usw. Gleichzeitig werden für jedes Meeting in AISHELL eine genaue Transkription und Sprecher-Stimmaktivität bereitgestellt. Auf diese Weise können Forscher verschiedene Aspekte der Konferenzverarbeitung untersuchen, von einzelnen Aufgaben wie Sprach-Frontend-Verarbeitung, Spracherkennung und Sprecherdiarisierung bis hin zur multimodalen Modellierung und gemeinsamen Optimierung verwandter Aufgaben. Das Forschungsteam hat außerdem ein auf PyTorch basierendes Trainings- und Evaluierungsframework als Basissystem veröffentlicht, um reproduzierbare Forschung in diesem Bereich zu fördern.