vor 11 Tagen

Großes rohes emotionales Datenset mit Aggregationsmechanismus

Vladimir Kondratenko, Artem Sokolov, Nikolay Karpov, Oleg Kutuzov, Nikita Savushkin, Fyodor Minkin

Abstract

Wir präsentieren eine neue Datensammlung für Aufgaben der Sprachemotionserkennung (Speech Emotion Recognition, SER), die als Dusha bezeichnet wird. Das Korpus umfasst etwa 350 Stunden Daten, mehr als 300.000 Audioaufnahmen mit russischem Sprachmaterial sowie deren Transkripte. Damit stellt es derzeit die größte öffentlich verfügbare zweimodale Datensammlung für SER-Aufgaben dar. Die Annotation erfolgte über eine Crowdsourcing-Plattform und umfasst zwei Untermengen: eine gespielte (acted) und eine im Alltag aufgezeichnete (real-life) Variante. Die gespielte Teilmenge weist eine ausgewogener verteilte Klassenverteilung auf, während die ungleichmäßig verteilte real-life-Menge aus Audio-Podcasts besteht. Daher eignet sich die erstere für die Vortrainingsphase von Modellen, während die letztere speziell für das Feintuning, die Modellprüfung und Validierung konzipiert ist. In diesem Artikel werden die Vorverarbeitung, die Annotation sowie Experimente mit einem Basismodell beschrieben, um konkrete Leistungsmetriken zu demonstrieren, die mit der Dusha-Datensammlung erzielt werden können.