Kontrastives unbeaufsichtigtes Lernen für die Sprachemotionserkennung

Die Spracherkennung von Emotionen (Speech Emotion Recognition, SER) ist eine Schlüsseltechnologie, um eine natürlichere Mensch-Maschine-Kommunikation zu ermöglichen. Doch die SER leidet seit langem unter dem Mangel an öffentlich verfügbaren, großskaligen und annotierten Datensätzen. Um diesem Problem zu begegnen, untersuchen wir, wie unüberwachtes Darstellungslernen auf nicht annotierten Datensätzen der SER zugutekommen kann. Wir zeigen, dass die Methode des kontrastiven prädiktiven Kodierens (Contrastive Predictive Coding, CPC) bedeutungsvolle Darstellungen aus nicht annotierten Datensätzen lernen kann, was die Leistung der Emotionserkennung verbessert. In unseren Experimenten erreichte diese Methode auf dem IEMOCAP-Datensatz state-of-the-art-Werte des Konkordanzkorrelationskoeffizienten (CCC) für alle Emotionsprimitive (Aktivität, Valenz und Dominanz). Zudem erzielte unsere Methode auf dem MSP-Podcast-Datensatz gegenüber den Baselines erhebliche Leistungsverbesserungen.