HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Tiefen versus flache neuronale Netze: Eine empirische Analyse zur menschlichen Emotionsklassifikation unter Verwendung audiovisueller Daten

{and Rajiv Misra Rohit Kumar Gupta Anurag Choubey Sourajit Behera Karanjit Singh Gill Chandresh S. Kanani}

Abstract

Menschliche Emotionen können auf vielfältige Weise erkannt werden, beispielsweise durch die Analyse der tonalen Eigenschaften der Sprache, der Gesichtsausdrücke, die vor der Sprachproduktion entstehen, oder auch der Körpersprache, die Emotionen andeuten kann, ohne dass Worte gesprochen werden müssen. Die korrekte Identifizierung der Emotionen einer Person kann dabei helfen, die Situation besser zu verstehen und gegebenenfalls angemessen darauf zu reagieren. Dieses Phänomen gilt insbesondere für zahlreiche Rückmeldungssysteme im täglichen menschlichen Kommunikationskontext, insbesondere solche, die in intelligenten Haussystemen eingesetzt werden. Der Bereich der automatisierten Emotionserkennung umfasst Anwendungsfälle in verschiedenen Forschungsfeldern, von der Computer Vision und der Physiologie bis hin zur künstlichen Intelligenz. In dieser Arbeit wird eine Klassifizierung von Emotionen in acht Kategorien vorgenommen – neutral, glücklich, traurig, wütend, ruhig, ängstlich, abgestoßen und überrascht – basierend auf der Art und Weise, wie Sätze gesprochen werden, unter Verwendung der „Ryerson Audio-Visual Database of Emotional Speech and Song“ (RAVDESS). Wir stellen einen neuartigen Ansatz zur Emotionsklassifizierung von Audio-Kommunikationen auf der Grundlage von Sprachsignalen vor. Die auf akustischen Eigenschaften basierende Emotionsklassifizierung ist sprachunabhängig und eignet sich somit für die cross-languages Emotionserkennung. Ziel der Arbeit war die Entwicklung eines Systems, das Emotionen in Echtzeit automatisch erkennen kann. Durch mehrere Simulationen konnten wir mit unserem flachen CNN-Modell eine höchste Genauigkeit von 82,99 % erreichen.

Benchmarks

BenchmarkMethodikMetriken
speech-emotion-recognition-on-ravdessCNN-X (Shallow CNN)
Accuracy: 82.99%
F1 Score: 0.82
Precision: 0.82
Recall: 0.82

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Tiefen versus flache neuronale Netze: Eine empirische Analyse zur menschlichen Emotionsklassifikation unter Verwendung audiovisueller Daten | Forschungsarbeiten | HyperAI