Ein erweiterter variationaler Modendekompositions-Algorithmus zur Verbesserung der Leistung von Sprachemotionserkennung

Die Erkennung von Emotionen (ER) aus Sprachsignalen stellt einen robusten Ansatz dar, da sie nicht wie Gesichtsausdrücke oder textbasierte Sentimentanalyse nachgeahmt werden kann. Wertvolle Informationen, die den Emotionen zugrunde liegen, sind entscheidend für die Mensch-Computer-Interaktion und ermöglichen es intelligenten Maschinen, im realen Weltumfeld sensibel zu interagieren. Bisherige Studien zur ER mittels Sprachsignalverarbeitung konzentrierten sich ausschließlich auf die Beziehungen zwischen verschiedenen Methoden der Signalmodendekomposition und verborgenen informativen Merkmalen. Eine unangemessene Auswahl der Dekompositionsparameter führt jedoch aufgrund von Moden-Duplikation und -Mischung zu Verlusten informativer Signalkomponenten. Im Gegensatz dazu schlägt die vorliegende Studie VGG-optiVMD vor – einen verfeinerten Algorithmus basierend auf der variationalen Modendekomposition (VMD) –, um bedeutungsvolle Sprachmerkmale zu identifizieren und die Anzahl der dekomponierten Modi sowie den optimalen Ausgleichsparameter für die Datenkonsistenzbedingung automatisch zu bestimmen, indem deren Einfluss auf die Ausgabe des flachen Layers von VGG16 analysiert wird. Verschiedene Merkmalsvektoren wurden eingesetzt, um das VGG16-Netzwerk auf unterschiedlichen Datensätzen zu trainieren und die Wiederholbarkeit sowie Zuverlässigkeit von VGG-optiVMD zu bewerten. Eindimensionale, zweidimensionale und dreidimensionale Merkmalsvektoren wurden durch die Kombination von Mel-Frequenz-Kepler-Koeffizienten (MFCC), Chromagrammen, Mel-Spektrogrammen, Tonnetz-Diagrammen und spektralen Zentroiden erstellt. Die Ergebnisse bestätigten eine synergistische Beziehung zwischen der Feinabstimmung der Signalabtastfrequenz und der Dekompositionsparameter sowie der Klassifizierungsgenauigkeit und erreichten eine state-of-the-art-Accuracy von 96,09 % bei der Vorhersage von sieben Emotionen auf der Berlin EMO-DB-Datenbank.