HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

EmoNet-Voice: Ein feingranulärer, von Experten verifizierter Benchmark für die Erkennung von Sprachemotionen

Christoph Schuhmann Robert Kaczmarczyk Gollam Rabby Felix Friedrich Maurice Kraus Kourosh Nadi Huu Nguyen Kristian Kersting S\u00f6ren Auer

EmoNet-Voice: Ein feingranulärer, von Experten verifizierter Benchmark für die Erkennung von Sprachemotionen

Abstract

Der Fortschritt von Text-zu-Sprache- und Audio-Generierungsmodellen erfordert robuste Benchmarks zur Bewertung der Fähigkeiten künstlicher Intelligenz (KI) Systeme, Emotionen zu verstehen. Aktuelle Sprachemotionserkennungsdatensätze (Speech Emotion Recognition, SER) weisen oft Einschränkungen in Bezug auf die emotionale Feinheit, Datenschutzbedenken oder eine Abhängigkeit von gespielten Darstellungen auf. In dieser Arbeit stellen wir EmoNet-Voice vor, eine neue Ressource für die Erkennung von Sprachemotionen. Sie umfasst EmoNet-Voice Big, einen groß angelegten Vortrainingsdatensatz (mit über 4.500 Stunden an Sprache über 11 Stimmen, 40 Emotionen und 4 Sprachen), sowie EmoNet-Voice Bench, ein neues Benchmark-Datensatz mit Annotationen durch menschliche Experten. EmoNet-Voice ist darauf ausgelegt, SER-Modelle auf einem feingranularen Spektrum von 40 Emotionskategorien mit unterschiedlichen Intensitätsstufen zu bewerten. Unter Verwendung modernster Techniken zur Stimmegenerierung haben wir synthetische Audioschnipsel zusammengestellt, die Szenen simulieren, die spezifische Emotionen hervorrufen sollen. Entscheidend war hierbei die strenge Validierung durch Psychologieexperten, die Wahrnehmungsintensitätseinschätzungen vorgenommen haben. Dieser synthetische Ansatz zum Schutz der Privatsphäre ermöglicht es, sensible emotionale Zustände einzubeziehen, die in bestehenden Datensätzen häufig fehlen. Abschließend führen wir Empathic Insight Voice-Modelle ein, die einen neuen Standard in der Sprachemotionserkennung setzen und eine hohe Übereinstimmung mit menschlichen Experten erreichen. Unsere Evaluierungen im aktuellen Modellspektrum zeigen wertvolle Ergebnisse wie etwa, dass hocharousale Emotionen wie Wut viel leichter zu erkennen sind als niederarousale Zustände wie Konzentration.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
EmoNet-Voice: Ein feingranulärer, von Experten verifizierter Benchmark für die Erkennung von Sprachemotionen | Forschungsarbeiten | HyperAI