HyperAIHyperAI

Command Palette

Search for a command to run...

Großes rohes emotionales Datenset mit Aggregationsmechanismus

Vladimir Kondratenko Artem Sokolov Nikolay Karpov Oleg Kutuzov Nikita Savushkin Fyodor Minkin

Zusammenfassung

Wir präsentieren eine neue Datensammlung für Aufgaben der Sprachemotionserkennung (Speech Emotion Recognition, SER), die als Dusha bezeichnet wird. Das Korpus umfasst etwa 350 Stunden Daten, mehr als 300.000 Audioaufnahmen mit russischem Sprachmaterial sowie deren Transkripte. Damit stellt es derzeit die größte öffentlich verfügbare zweimodale Datensammlung für SER-Aufgaben dar. Die Annotation erfolgte über eine Crowdsourcing-Plattform und umfasst zwei Untermengen: eine gespielte (acted) und eine im Alltag aufgezeichnete (real-life) Variante. Die gespielte Teilmenge weist eine ausgewogener verteilte Klassenverteilung auf, während die ungleichmäßig verteilte real-life-Menge aus Audio-Podcasts besteht. Daher eignet sich die erstere für die Vortrainingsphase von Modellen, während die letztere speziell für das Feintuning, die Modellprüfung und Validierung konzipiert ist. In diesem Artikel werden die Vorverarbeitung, die Annotation sowie Experimente mit einem Basismodell beschrieben, um konkrete Leistungsmetriken zu demonstrieren, die mit der Dusha-Datensammlung erzielt werden können.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Großes rohes emotionales Datenset mit Aggregationsmechanismus | Paper | HyperAI