Großes rohes emotionales Datenset mit Aggregationsmechanismus

Wir präsentieren eine neue Datensammlung für Aufgaben der Sprachemotionserkennung (Speech Emotion Recognition, SER), die als Dusha bezeichnet wird. Das Korpus umfasst etwa 350 Stunden Daten, mehr als 300.000 Audioaufnahmen mit russischem Sprachmaterial sowie deren Transkripte. Damit stellt es derzeit die größte öffentlich verfügbare zweimodale Datensammlung für SER-Aufgaben dar. Die Annotation erfolgte über eine Crowdsourcing-Plattform und umfasst zwei Untermengen: eine gespielte (acted) und eine im Alltag aufgezeichnete (real-life) Variante. Die gespielte Teilmenge weist eine ausgewogener verteilte Klassenverteilung auf, während die ungleichmäßig verteilte real-life-Menge aus Audio-Podcasts besteht. Daher eignet sich die erstere für die Vortrainingsphase von Modellen, während die letztere speziell für das Feintuning, die Modellprüfung und Validierung konzipiert ist. In diesem Artikel werden die Vorverarbeitung, die Annotation sowie Experimente mit einem Basismodell beschrieben, um konkrete Leistungsmetriken zu demonstrieren, die mit der Dusha-Datensammlung erzielt werden können.