HyperAIHyperAI

Command Palette

Search for a command to run...

Kontrastives unbeaufsichtigtes Lernen für die Sprachemotionserkennung

Mao Li Bo Yang Joshua Levy Andreas Stolcke Viktor Rozgic Spyros Matsoukas Constantinos Papayiannis Daniel Bone Chao Wang

Zusammenfassung

Die Spracherkennung von Emotionen (Speech Emotion Recognition, SER) ist eine Schlüsseltechnologie, um eine natürlichere Mensch-Maschine-Kommunikation zu ermöglichen. Doch die SER leidet seit langem unter dem Mangel an öffentlich verfügbaren, großskaligen und annotierten Datensätzen. Um diesem Problem zu begegnen, untersuchen wir, wie unüberwachtes Darstellungslernen auf nicht annotierten Datensätzen der SER zugutekommen kann. Wir zeigen, dass die Methode des kontrastiven prädiktiven Kodierens (Contrastive Predictive Coding, CPC) bedeutungsvolle Darstellungen aus nicht annotierten Datensätzen lernen kann, was die Leistung der Emotionserkennung verbessert. In unseren Experimenten erreichte diese Methode auf dem IEMOCAP-Datensatz state-of-the-art-Werte des Konkordanzkorrelationskoeffizienten (CCC) für alle Emotionsprimitive (Aktivität, Valenz und Dominanz). Zudem erzielte unsere Methode auf dem MSP-Podcast-Datensatz gegenüber den Baselines erhebliche Leistungsverbesserungen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp