Kombination tiefer und unsupervisierter Merkmale für die mehrsprachige Sprachemotionserkennung
In diesem Artikel präsentieren wir ein Convolutional Neural Network für die mehrsprachige Emotionserkennung aus gesprochenen Sätzen. Ziel dieser Arbeit war die Entwicklung eines Modells, das Emotionen auf Basis kombinierter textueller und akustischer Informationen erkennen kann und gleichzeitig mit mehreren Sprachen kompatibel ist. Das vorgestellte Modell weist eine end-to-end tiefe Architektur auf, wodurch es rohe Text- und Audio-Daten verarbeitet und mittels konvolutioneller Schichten eine Hierarchie von Klassifizierungsmerkmalen extrahiert. Zudem zeigen wir, dass das trainierte Modell aufgrund der Nutzung mehrsprachiger, unsupervisierter textueller Merkmale gute Leistungen in verschiedenen Sprachen erzielt. Als zusätzlicher Vorteil sei erwähnt, dass unsere Lösung keine Wort- oder Phonem-Ausrichtung zwischen Text und Audio erfordert. Das vorgeschlagene Modell, PATHOSnet, wurde an mehreren Korpora mit unterschiedlichen gesprochenen Sprachen (IEMOCAP, EmoFilm, SES und AESI) trainiert und evaluiert. Vor dem Training optimierten wir die Hyperparameter ausschließlich am IEMOCAP-Korpus, das realistische Audioaufnahmen und Transkriptionen emotionaler Sätze in Englisch bietet. Das finale Modell erreicht schließlich state-of-the-art Ergebnisse auf mehreren der ausgewählten Datensätze für die vier betrachteten Emotionen.