HyperAIHyperAI

Command Palette

Search for a command to run...

Ein erweiterter variationaler Modendekompositions-Algorithmus zur Verbesserung der Leistung von Sprachemotionserkennung

David Hason Rudd Huan Huo Guandong Xu

Zusammenfassung

Die Erkennung von Emotionen (ER) aus Sprachsignalen stellt einen robusten Ansatz dar, da sie nicht wie Gesichtsausdrücke oder textbasierte Sentimentanalyse nachgeahmt werden kann. Wertvolle Informationen, die den Emotionen zugrunde liegen, sind entscheidend für die Mensch-Computer-Interaktion und ermöglichen es intelligenten Maschinen, im realen Weltumfeld sensibel zu interagieren. Bisherige Studien zur ER mittels Sprachsignalverarbeitung konzentrierten sich ausschließlich auf die Beziehungen zwischen verschiedenen Methoden der Signalmodendekomposition und verborgenen informativen Merkmalen. Eine unangemessene Auswahl der Dekompositionsparameter führt jedoch aufgrund von Moden-Duplikation und -Mischung zu Verlusten informativer Signalkomponenten. Im Gegensatz dazu schlägt die vorliegende Studie VGG-optiVMD vor – einen verfeinerten Algorithmus basierend auf der variationalen Modendekomposition (VMD) –, um bedeutungsvolle Sprachmerkmale zu identifizieren und die Anzahl der dekomponierten Modi sowie den optimalen Ausgleichsparameter für die Datenkonsistenzbedingung automatisch zu bestimmen, indem deren Einfluss auf die Ausgabe des flachen Layers von VGG16 analysiert wird. Verschiedene Merkmalsvektoren wurden eingesetzt, um das VGG16-Netzwerk auf unterschiedlichen Datensätzen zu trainieren und die Wiederholbarkeit sowie Zuverlässigkeit von VGG-optiVMD zu bewerten. Eindimensionale, zweidimensionale und dreidimensionale Merkmalsvektoren wurden durch die Kombination von Mel-Frequenz-Kepler-Koeffizienten (MFCC), Chromagrammen, Mel-Spektrogrammen, Tonnetz-Diagrammen und spektralen Zentroiden erstellt. Die Ergebnisse bestätigten eine synergistische Beziehung zwischen der Feinabstimmung der Signalabtastfrequenz und der Dekompositionsparameter sowie der Klassifizierungsgenauigkeit und erreichten eine state-of-the-art-Accuracy von 96,09 % bei der Vorhersage von sieben Emotionen auf der Berlin EMO-DB-Datenbank.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein erweiterter variationaler Modendekompositions-Algorithmus zur Verbesserung der Leistung von Sprachemotionserkennung | Paper | HyperAI