Spracherkennung von Emotionen unter Verwendung von Sprachmerkmalen und Wort-Einbettungen
Die emotionale Erkennung kann automatisch aus verschiedenen Modalitäten durchgeführt werden. In diesem Artikel wird eine kategorische Sprachemotionserkennung vorgestellt, die auf Sprachmerkmalen und Word-Embeddings basiert. Textmerkmale können mit Sprachmerkmalen kombiniert werden, um die Genauigkeit der Emotionserkennung zu verbessern, wobei beide Merkmale aus der Sprache abgeleitet werden können. Hier werden Sprachsegmente verwendet, indem Silben innerhalb einer Äußerung entfernt werden, wobei akustische Merkmale zur sprachbasierten Emotionserkennung extrahiert werden. Word-Embeddings dienen als Eingabemerkmale für die Textemotionserkennung, und eine Kombination beider Merkmale wird vorgeschlagen, um die Leistung zu steigern. Zwei einseitige LSTM-Schichten werden für die Textverarbeitung eingesetzt, während vollständig verbundene Schichten für die akustische Emotionserkennung verwendet werden. Beide Netzwerke werden anschließend auf früher Fusionsebene durch vollständig verbundene Schichten zusammengeführt, um eine der vier vorhergesagten Emotionskategorien zu erzeugen. Die Ergebnisse zeigen, dass die Kombination von Sprache und Text eine höhere Genauigkeit erreicht – nämlich 75,49 % – im Vergleich zu reiner Spracherkennung mit 58,29 % oder reiner Texterkennung mit 68,01 %. Dieses Ergebnis übertrifft zudem die zuvor von anderen vorgeschlagenen Methoden, die auf derselben Datensammlung und denselben Modalitäten basieren.